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“清华 大 学 计算 机 系列 教材 "已 经 出 版 发 行 了 30 余 种 ,包括 计算 机 科学 与 技术 专业 的 基 
础 数学 ,专业 技术 基础 和 专业 等 课程 的 教材 ,覆盖 了 计算 机 科学 与 技术 专业 本 科 生 和 研究 生 
的 主要 教学 内 容 。 这 是 一 批 至 今 发 行 数量 很 大 并 赢得 广大 读者 赞誉 的 书籍 ,是 近年 来 出 版 
的 大 学 计算 机 专业 教材 中 影响 比较 大 的 一 批 精品 。 

本 系列 教材 的 作者 都 是 我 熟悉 的 教授 与 同事 ,他 们 长 期 在 第 一 线 担 任 相关 课程 的 教学 
工作 ,是 一 批 很 受 本 科 生 和 研究 生 欢迎 的 任课 教师 。 编 写 高 质量 的 计算 机 专业 本 科 生 (和 研 
究 生 ) 教 材 , 不 仅 需要 作者 具备 丰富 的 教学 经 验 和 科研 实践 ,还 需要 对 相关 领域 科技 发 展 前 
沿 的 正确 把 握 和 了 解 。 正 因为 本 系列 教材 的 作者 们 具备 了 这 些 条 件 , 才 有 了 这 批 高 质量 优 
秀 教 材 的 产生 。 可 以 说 ,教材 是 他 们 长 期 辛勤 工作 的 结晶 。 本 系列 教材 出 版 发 行 以 来 ,从 其 
发 行 的 数量 、 读 者 的 反映 ,已 经 获得 的 国家 级 与 省 部 级 的 奖励 ,以 及 在 各 个 高 等 院 校 教 学 中 
所 发 挥 的 作用 上 ,都 可 以 看 出 本 系列 教材 所 产生 的 社会 影响 与 效益 。 

计算 机 学 科 发 展 异常 迅速 ,内 容 更 新 很 快 。 作 为 教材 ,一 方面 要 反映 本 领域 基础 性 、 普 
遍 性 的 知识 ,保持 内 容 的 相对 稳定 性 ; 另 一 方面 ,又 需要 紧 跟 科 技 的 发 展 ,及 时 地 调整 和 更 新 
内 容 。 本 系列 教材 都 能 按照 自身 的 需要 及 时 地 做 到 这 一 点 。 如 王 爱 英 教授 等 编著 的 《计算 
机 组 成 与 结构 》、 戴 梅 莹 教授 等 编著 的 (微型 计算 机 技术 及 应 用 ) 都 已 经 出 版 了 第 四 版 , 严 蔚 
敏 教授 的 (数据 结构 》 也 出 版 了 三 版 ,使 教材 既 保 持 了 稳定 性 ,又 达到 了 先进 性 的 要 求 。 

本 系列 教材 内 容 丰 富 ,体系 结构 严谨 ,概念 清晰 ,易学 易 懂 ,符合 学 生 的 认 知 规律 ,适合 
教学 与 自学 , 深 受 广 大 读者 的 欢迎 。 系 列 教材 中 多 数 配 有 丰富 的 习题 集 、 习 题解 答 、 上 机 及 
实验 指导 和 电子 教案 ,便于 学 生理 论 联系 实际 地 学 习 相 关 课 程 。 

随 着 我 国 进一步 的 开放 ,我 们 需要 扩大 国际 交流 ,加 强 学 习 国外 的 先进 经 验 。 在 大 学 教 
材 建设 上 ,我 们 也 应 该 注意 学 习 和 引进 国外 的 先进 教材 。 但 是 “清华 大 学 计算 机 系列 教材 ” 
的 出 版 发 行 实践 以 及 它 所 取得 的 效果 告诉 我 们 ,在 当前 形势 下 ,编写 符合 国情 的 具有 自主 版 
权 的 高 质量 教材 仍 具 有 重大 意义 和 价值 。 它 与 国外 原版 教材 不 仅 不 矛盾 ,而 且 是 相辅相成 
的 。 本 系列 教材 的 出 版 还 表明 ,针对 某 一 学 科 培 养 的 要 求 , 在 教育 部 等 上 级 部 门 的 指导 下 ， 
有 计划 地 组 织 任课 教师 编写 系列 教材 ,还 能 促进 对 该 学 科 科学 、 合 理 的 教学 体系 和 内 容 的 
研究 。 

我 希望 今后 有 更 多 、 更 好 的 我 国 优秀 教材 出 版 。 


清华 大 学 计算 机 系 教授 ,中 国 科学 院 院士 
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对 于 在 校 的 学 生 和 工程 技术 人 员 而 言 , 能 否 有 效 地 了 解 操 作 系 统 原理 后 面 的 具体 设计 
实现 呢 ? 陆游 说 过 :“ 纸 上 得 来 终 觉 浅 , 绝 知 此 事 要 躬 行 ”。 我 们 在 教学 过 程 中 ,也 深刻 体会 
到 这 一 点 。 我 们 认为 ,在 了 解 基本 的 操作 系统 概念 和 原理 的 基础 上 ,通过 实际 动手 来 一 步 一 
步 分 析 、 设 计 和 实现 一 个 微型 化 的 操作 系统 ,会 深入 了 解 操 作 系 统 的 实现 细节 ,并 体会 到 概 
念 原理 和 实际 实现 之 间 的 紧密 联系 及 巨大 差异 。 

操作 系统 是 一 个 复杂 系统 软件 ,涉及 内 容 繁多 ,发 展 也 很 快 ,如 Linux, Windows 等 ,都 
是 上 百 万 行 的 源 代码 规模 。 开 发 人 员 开 发 这 些 操作 系统 软件 的 目的 是 用 于 实际 计算 机 系统 
中 ,而 不 是 用 于 教学 ,所 以 直接 用 这 些 操作 系统 来 分 析 了 解 操 作 系统 的 实现 和 进行 操作 系统 
实验 会 比较 复杂 。 而 且 目 前 部 分 操作 系统 教材 的 内 容 也 越 来 越 庞大 和 抽象 ,而 面向 操作 系 
统 设 计 实 现 的 实验 部 分 相对 就 少 了 很 多 。 这 两 方面 交织 在 一 起 ,导致 学 生 了 解 和 掌握 操作 
系统 的 实际 细节 很 困难 。 

早期 的 UNIX 操作 系统 实现 和 MIT 教授 Frans Kaashoek 等 基于 UNIX v6 设计 的 xv6 
操作 系统 给 了 我 们 启发 :对 一 个 计算 机 专业 的 本 科 生 而 言 ,在 了 解 操作 系统 原理 的 基础 上 ， 
设计 实现 一 个 操作 系统 有 挑战 ,但 是 可 行 ! 我 们 对 此 进行 了 尝试 与 探索 ,以 设计 实现 一 个 微 
型 但 全 面 的 操作 系统 ucore 为 基本 目标 ,以 增 量 式 递 进 开发 方式 完成 各 种 基于 ucore 操 
作 系 统 的 实验 为 实践 过 程 , 以 在 此 过 程 中 逐步 介绍 的 操作 系统 的 基本 概念 和 原理 为 实践 指 
导 , 做 到 有 ”“ 理 ?可 循 和 有 “”* 码 ”可 查 , 最 终 让 读者 了 解 和 掌握 操作 系统 的 原理 .设计 与 实现 。 
目前 的 实验 内 容 包含 如 下 8 个 。 

(1) 启动 操作 系统 的 bootloader: 了 解 操 作 系统 启动 前 的 状态 和 要 做 的 准备 工作 。 

(2) 物理 内 存 管 理子 系统 :理解 硬件 段 /页 模式 和 操作 系统 如 何 管理 物理 内 存 。 

(3) 虚拟 内 存 管理 子 系统 :理解 页 表 机 制 、 缺 页 故障 处 理 以 及 内 存 蔡 换算 法 。 

(4) 内 核 线 程 子 系统 :理解 相对 简单 的 内 核 态 线程 的 动态 管理 过 程 。 

(5) 用 户 进 程 管 理子 系统 :理解 用 户 态 进程 动态 管理 过 程 以 及 系统 调用 过 程 。 

(6) 处 理 器 调度 子 系统 :理解 操作 系统 的 调度 过 程 和 调度 算法 。 

(7) 同步 互 斥 与 进程 间 通 信子 系统 :理解 进程 间 如 何 同 步 互 斥 以 及 进行 信息 交换 和 
共享 。 

(8) 文件 系统 :理解 文件 系统 的 具体 实现 ,与 进程 管理 和 内 存 管理 等 的 关系 。 

其 中 每 个 开发 步骤 都 是 建立 在 上 一 个 步骤 之 上 的 ,就 像 搭 积木 ,从 一 个 一 个 小 木 块 ,最 
终 搭 出 来 一 个 小 房子 。 在 搭 房子 的 过 程 中 ,完成 从 理解 操作 系统 原理 到 实践 操作 系统 设计 
与 实现 的 探索 过 程 。 最 新 的 代码 和 文档 放 在 http://www. github. com/chyyuu/ucore_lab 
上 上。 如果 有 同学 和 OS 爱好 者 觉得 这 些 实验 难度 不 够 ,大 家 可 参加 更 有 挑战 和 乐趣 的 ucore 
plus 实验 ,这 些 实验 位 于 http://www. github. com/chyyuu/ucore_plus 下 。 目 前 的 代码 和 
文档 还 有 许多 不 完善 和 错误 的 地 方 需要 改进 ,欢迎 大 家 批评 指正 。 
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在 实现 基于 ucore 的 操作 系统 实验 过 程 中 ,我 们 参考 和 借鉴 了 xv6、OS161 以 及 Linux 
的 设计 思路 和 实现 代码 ,而 且 Frans Kaashoek 博士 也 亲自 给 予 了 帮助 与 指导 。 国 内 多 所 高 
校 的 老师 ,包括 陈 向 群 、 王 雷 、 陈 鹏 、 陈 莉 君 . 原 仓 周 、 浦 晓 蓉 等 都 给 予 了 指导 和 帮助 。 操 作 系 
EUR AE VY AE TDG ak Wr ERAS 、 陈 宇 恒 、 草 聪 . 杨 杨 等 完成 了 大 量 工作 ,在 此 表示 衷心 


的 感谢 ! 


陈 渝 向 g 
2013 年 3 月 12 日 
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第 1 章 实验 0: 操作 系统 实验 准备 


1.1 实验 目的 


(1) 了 解 操作 系统 开发 的 实验 环境 。 
(2) 熟悉 命令 行 方式 的 编译 ,调试 工程 。 
(3) 掌握 基于 硬件 模拟 器 的 调试 技术 。 
(4) 熟悉 C 语言 编程 和 指针 的 概念 。 
(5) 了 解 x86 汇编 语言 。 


1.2 准备 知识 


1.2.1 了 解 OS 实验 


编写 一 个 操作 系统 程序 难 吗 ” 别 被 现在 上 百 万 行 的 Linux 和 Windows 操作 系统 吓 倒 。 
当年 Thompson 在 他 夫人 带 着 小 孩 度假 留 他 一 人 在 家 时 ,编写 了 UNIX; 当年 Linus 还 是 一 
个 21 岁 大 学 生 时 弄 出 了 Linux 的 雏形 。 站 在 这 些 巨 人 的 肩膀 上 ,我们 能 和 否 也 尝试 一 下 做 
“巨人 ”的 滋味 呢 ? 

MIT 的 Frans Kaashoed 教授 等 在 2006 年 左右 参考 PDP-11 上 的 UNIX Version 6 写 
了 一 个 可 在 x86 上 跑 的 xv6 操作 系统 (基于 MIT License), 用 于 学 生 学 习 操 作 系 统 。 
Harvard 大 学 的 David A. Holland 等 也 设计 了 OS161 操作 系统 用 于 操作 系统 实验 教学 。 我 
们 可 以 站 在 他 们 的 肩膀 上 ,参考 他 们 的 设计 思路 .方法 和 源 代码 ,尝试 着 一 步 一 步 完 成 一 个 
从 “空空 如 也 ”到 “五 脏 俱全 ”的 “ 麻 瞧 ”操作 系统 ucore, JE “PRE” OS 包含 软件 启动 .中 断 
处 理 、 物 理 内 存 管理 、 虚 存 管 理 、 进 程 管理 .处理 器 调度 .同步 互 斥 .进程 间 通 信 、 文 件 系统 等 
主要 操作 系统 内 核 功 能 ,每 个 实验 包含 的 内 核 代码 量 (C 十 asm 十 注释 ) 在 300 一 10 000 行 左 
右 ,充分 体现 了 “小 而 全 ”的 指导 思想 。 

ucore 的 运行 环境 可 以 是 真实 的 x86 计算 机 ,不 过 考虑 到 调试 和 开发 的 方便 ,我 们 可 采 
用 x86 硬件 模拟 器 ,比如 QEMU、BOCHS、VirtualBox、VMware Player 等 。ucore 的 开发 
环境 主要 是 GCC 中 的 gec gas, ld M MAKE 等 工具 ,也 可 采用 集成 了 这 些 工具 的 IDE 开发 
环境 Eclipse-CDT 等 。 在 分 析 源 代码 上 ,可 以 采用 Scitools 提供 的 understand 软件 (路 平 
fi). Windows 环境 上 的 Source Insight 软件 ,或 者 基于 emacs 十 ctags、vim 十 ctags 等 ,都 可 
以 比较 方便 地 在 一 堆 文件 中 查找 变量 .函数 定义 .调用 /访问 关系 等 。 软 件 开 发 的 版 本 管理 
可 以 采用 GIT SVN 等 。 比 较 文件 和 目录 的 不 同 可 发 现 不 同 实 验 中 的 差异 性 和 进行 文件 合 
并 操作 ,可 使 用 meld、kdiff3、UltraCompare 等 软件 。 调 试 (Deubg) 实 验 有 助 于 发 现 设 计 中 
的 错误 ,可 采用 gdb( 配 合 qemu) 等 调试 工具 软件 。 整 个 实验 的 运行 环境 和 开发 环境 既 可 以 
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在 Linux 使 用 ,又 可 以 在 Windows 中 使 用 。 推 荐 使 用 Linux 环境 。 

如 何 一 步 一 步 来 实现 ucore 呢 ? 根据 一 个 操作 系统 的 设计 实现 过 程 ,可 以 有 如 下 的 实 

(1) 启动 操作 系统 的 bootloader, 用 于 了 解 操作 系统 启动 前 的 状态 和 要 做 的 准备 工 
作 , 了 解 运行 操作 系统 的 硬件 支持 ,操作 系统 如 何 加 载 到 内 存 中 ,理解 外 设 中 断 和 陷阱 中 
断 等 。 

(2) 物理 内 存 管理 子 系统 ,用 于 理解 x86 分 段 /分 页 模式 ,了 解 操作 系统 如 何 管理 物理 
内 存 。 

(3) 虚拟 内 存 管理 子 系统 ,通过 页 表 机 制 和 换 入 换 出 (Swap) 机 制 ,以 及 故障 中 断 和 缺 
页 故障 处 理 等 ,实现 基于 页 的 内 存 替 换算 法 。 

(4) 内 核 线程 子 系统 ,用 于 了 解 如 何 创 建 相 对 与 用 户 进程 更 加 简单 的 内 核 态 线程 ,如 对 
内 核 线程 进行 动态 管理 等 。 

(5) 用 户 进程 管理 子 系统 ,用 于 了 解 用 户 态 进程 创建 执行、 切换 和 结束 的 动态 管理 过 
程 ,了 解 在 用 户 态 通过 系统 调用 得 到 内 核 态 的 内 核 服务 的 过 程 。 

(6) 处 理 器 调度 子 系统 ,用 于 理解 操作 系统 的 调度 过 程 和 调度 算法 。 

(7) 同步 互 斥 与 进程 间 通 信子 系统 ,了 解 进程 间 如 何 进 行 信息 交换 和 共享 ,并 了 解 同步 
互 斥 的 具体 实现 以 及 对 系统 性 能 的 影响 ,研究 死 锁 产 生 的 原因 ,以 及 如 何 避 免 死 锁 。 

(8) 文件 系统 ,了 解 文件 系统 的 具体 实现 ,与 进程 管理 等 的 关系 ,了 解 缓存 对 操作 系 
统 1/O 访问 的 性 能 改进 ,了 解 虚拟 文件 系统 (VFS) . Buffer Cache 和 Disk Driver 之 间 的 
关系 。 

其 中 每 个 开发 步骤 都 是 建立 在 上 一 个 步 又 之 上 ,就 像 搭 积木 ,从 一 个 一 个 小 木 块 , 最 终 
搭 出 来 一 个 小 房子 。 在 搭 房子 的 过 程 中 ,完成 从 理解 操作 系统 原理 到 实践 操作 系统 设计 与 
实现 的 探索 过 程 。 这 个 房子 最 终 的 建筑 架构 和 建设 进度 如 图 1-1 所 示 。 

如 果 完 成 上 述 实验 后 还 想 完成 更 大 的 挑战 实验 ,那么 可 以 参加 ucore 的 研发 项 目 ,我 们 
可 以 完成 ucore 的 网 络 协 议 栈 , 增 加 图 形 系统 ,增加 编程 语言 支持 (比如 目前 的 golang、 
python 等 ) ,在 ARM 嵌入 式 系统 上 运行 ,支持 虚拟 机 功能 等 。 这 些 项 目 已 经 有 同学 参与 ， 
欢迎 其 他 有 兴趣 的 同学 加 入 ! 

接 下 来 将 介绍 实验 环境 的 设置 .Linux 系统 的 安装 、Linux 命令 行 的 使 用 方法 .各 种 实 
验 工具 的 使 用 方法 以 及 Intel 80386 硬件 的 重要 特征 等 。 这 些 内 容 足 以 写成 另外 几 本 书 , 这 
里 主要 是 介绍 与 实验 相关 的 内 容 并 进行 了 大 量 的 精简 ,部 分 内 容 来 源 于 Internet (如 
Ubuntu forum 网 站 qemu 网 站 .GNU 网 站 等 ) 和 Intel 的 CPU 手册 ,由 于 内 容 繁 多 ,无 法 给 
出 具体 的 参考 署名 ,这 里 对 相关 作者 一 并 表示 感谢 。 


1.2.2 设置 实验 环境 


我 们 参考 了 MIT 的 xv6, Harvard 的 OS161 和 Linux 等 设计 了 ucore OS 实验 ,所 有 
OS 实验 需 在 Linux 下 运行 。 对 于 经 验 不 足 的 同学 ,推荐 参考 “通过 虚拟 机 使 用 Linux 实验 
环境 ”一 节 用 虚拟 机 方式 进行 实验 。 
1. 开发 OS 实验 的 简单 步骤 
在 github 网 站 (https://github. com/chyyuu/ucore_pub) 可 下 载 我 们 提供 的 labl ~ 
8. Bis 
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图 1-1 ucore 系统 结构 图 


lab8 实验 相关 软件 和 文档 ,大致 经 过 以 下 过 程 就 可 以 完成 使 用 。 


D 下 载 并 解压 软件 包 。 


硬件 层 


(2) 进入 各 个 OS 实验 工程 目录 ,如 执行 “cd Code//Labl? 可 查看 目录 下 Labl 的 源码 ， 


+3. 


执行 “cd doc” 查 看 各 个 实验 相关 文档 。 

(3) 根据 实验 要 求 阅 读 源码 并 修改 代码 (用 各 种 代码 分 析 工 具 和 文本 编辑 器 ) 。 

(4) 并 编译 源码 ,例如 执行 : make. 

(5) 如 编译 不 过 则 返回 步 又 (3) 。 

(6) 如 编译 通过 则 可 查看 运行 情况 ,如 执行 : make qemu. 

(7) 如 想 测 试 个 人 的 实验 完成 是 否 基本 正确 , 则 可 执行 : make grade, 

(8) 如 果实 现 基本 正确 可 查看 运行 情况 ( 即 看 到 步骤 (6) 的 输出 存在 不 是 OK 的 情况 ) 
则 返回 步骤 (3) 。 

(9) 如 果实 现 基本 正确 ( 即 看 到 步骤 (6) 的 输出 都 是 OK) 则 生成 实验 提交 软件 包 , 例 
如 ,执行 : make handin。 

(10) 把 生成 的 使 用 提交 软件 包 和 实验 报告 上 传 或 发 电子 邮件 给 助教 和 老师 。 

另外 ,可 以 通过 make debug 或 make debugnox 命令 实现 通过 gdb 远程 调试 OS 实验 
工程 。 

2. 通过 虚拟 机 使 用 Linux 实验 环境 (推荐 : 最 容易 的 实验 环境 安装 方法 ) 

这 是 最 简单 的 一 种 通过 虚拟 机 方式 使 用 Linux 并 完成 OS 各 个 实验 的 方法 ,Linux 操作 
系统 和 各 种 实验 所 需 的 开发 软件 都 已 经 安装 到 虚拟 硬盘 文件 中 了 ,只 需 安装 vir tual Box 虚 
拟 机 软件 就 可 以 开始 进行 实验 了 。 配 置 的 大 体 步 又 如 下 。 

(1) 安装 VirtualBox 虚拟 机 软件 (有 Windows 版 本 和 其 他 OS 版 本 ,可 到 http:// 
www. virtualbox. org/wiki/Downloads F$). 

(2) 在 网 上 下 载 一 个 已 经 安装 好 各 种 所 需 编 辑 / 开 发 /调试 /运行 软件 的 Linux 实验 环 
境 的 VirtualBox 虚拟 硬盘 文件 (oslabs_for_student_2012. zip, 包 含 一 个 虚拟 磁盘 镜像 文件 
和 两 个 配置 描述 文件 ,下 载 此 文件 的 网 址 参见 https: //github. com/chyyuu/ucore_lab 下 的 
README 中 的 描述 ) 。 

(3) 用 2345 好 压 软件 (有 Windows 版 本 ,可 到 http://www. haozip. com 下 载 。 一 般 
软件 解压 不 了 xz 格式 的 压缩 文件 ,也 可 以 用 其 他 支持 解压 zip 和 xz 压缩 格式 的 软件 ) 先 解 
压 到 C 盘 ( 也 可 以 是 其 他 盘 符 路 径 ) 的 vms 目录 下 , 即 : 


C:\vms\ubuntu- 12.04.vbox.xz 
C:\vms\ubuntu- 12.04.vmdk.vmdk.xz 
C:\vms\ubuntu- 12.04.vmdk- flat.vmdk.xz 


在 分 别 用 好 压 软件 或 其 他 能 够 解压 xz 压缩 格式 的 软件 进一步 解压 上 述 三 个 文件 ,形成 


C:\vms\ubuntu- 12.04.vbox 
C:\vms\ubuntu- 12.04.vmdk. vmdk 
C:\vms\ubuntu- 12.04.vmdk- flat .vmdk 


解压 后 这 三 个 文件 所 占用 的 硬盘 空间 为 12GB 左右 。 在 VirtualBox 中 加 载 ubuntu- 
12. 04. vbox, 就 可 以 启动 并 运行 Linux 实验 环境 了 。 
启动 到 提示 输入 用 户 名 时 ,请 输入 : 
chy 
o4e 


当 提示 输入 口令 时 ,只 需 按 空格 键 和 Enter 键 即 可 。 然 后 就 进入 开发 环境 中 了 。 实 验 
内 容 位 于 ucore_lab 目录 下 。 可 以 通过 如 下 命令 获得 放 在 github 上 的 整个 实验 的 最 新 代码 
和 文档 : 

$ git clone https: //github.caw/chyyuu/ucore lab.git 

并 可 通过 如 下 命令 获得 以 后 更 新 后 的 代码 和 文档 : 

$git pull 

如 需要 进一步 了 解 一 下 git 的 基本 使 用 方法 ,这 可 以 通过 网 络 搜索 获得 很 多 这 方面 的 信息 。 

3. 安装 Linux 实验 环境 (适合 自己 安装 Linux 系统 的 同学 ) 

这 里 主要 以 Ubuntu Linux 12.04(32 位 ) 作 为 整个 实验 的 系统 软件 环境 。 首 先 需要 安 
装 Ubuntu Linux 12.04, 这 里 主要 介绍 一 种 比较 容易 的 WUBI Linux 的 安装 方式 。 

WUBI FREE GRAD Linux 安装 方法 ) 

WUBI 是 一 个 专门 针对 Windows 用 户 的 UBUNTU Linux 安装 工具 ,读者 需要 做 的 只 
是 单 击 几 下 鼠标 而 已 。 不 需要 改变 分 区 设置 ,不 需要 启动 文件 ,不 需要 Live CD。 使 用 
WUBI 可 很 方便 地 安装 或 卸载 Ubuntu, 如 果 读 者 从 来 没有 安装 过 UBUNTU Linux, WUBI 
很 适合 初学 者 第 一 次 安装 UBUNTU Linux。 具 体 方法 如 下 。 

(1) 去 OS Course FTP 或 官方 网 站 http://releases. ubuntu. com/12. 04/ubuntu- 
12. 04-desktop-i386. iso 下 载 一 个 ubuntu-12. 04-desktop-i386 的 ISO 文件 。 

(2) 通过 winrar 等 工具 将 下 载 来 的 ISO 文件 中 的 wubi. exe 解压 出 来 , 放 在 任意 一 个 
分 区 的 根 目 录 下 。 这 里 推荐 预 留 了 一 个 至 少 大 小 为 8GB 的 NTFS 分 区 , 单 击 wubi. exe 安 
装 文件 ,这 时 会 弹出 对 话 框 。 

注意 : 在 ubuntu 12.04 中 在 Windows 内 安装 ”的 那个 选项 被 禁用 了 ,只 能 通过 以 下 

BAS RX AKIRA): K: \wubi. exe-force-wubi。 

(3) 设置 好 分 区 将 要 安装 的 分 区 .语言 .分 配 的 系统 大 小 ,用户 名 和 密码 (务必 记 住 ) 之 
后 , 单 击 “ 安 装 ? 按 钮 ,这 时 如 果 正 在 安装 的 计算 机 已 经 联网 了 ,会 自动 从 镜像 网 站 上 下 载 
ISO 文件 。 这 里 采用 绕 过 WUBI 下 载 镜像 ISO 的 方法 安装 Ubuntu 12. 04 ,会 节省 大 量 时 
间 。 避 免 下 载 ISO 文件 的 这 一 步 非常 关键 。 在 进行 这 一 步 之 前 请 将 网 线 断 开 , 然 后 将 提前 
下 载 来 的 ubuntu-12. 04-desktop-i386. iso 文件 复制 到 WUBI 所 创建 的 Ubuntu 目录 下 的 
install 文件 夹 中 ,重新 运行 wubi. exe。 这 次 再 也 不 会 提示 下 载 ISO 文件 了 。 几 秒 钟 后 ， 
WUBI 就 会 提示 你 重新 启动 系统 。 注 意 ,此 时 Ubuntu 并 没有 安装 在 硬盘 上 ,必须 重新 启动 
才 开 始 进 行 Ubuntu 12. 04 的 安装 。 

(4) 单 击 “ 完 成 "按钮 ,选择 重启 计算 机 。 计 算 机 重启 后 ,在 启动 选项 中 选择 Ubuntu, th 
现 “press'Esc' to…” 时 ,不 用 理会 ,这 时 Ubuntu 滚动 条 出 现在 屏幕 上 。 此 时 , 才 正 式 开始 
安装 Ubuntu 12. 04 至 硬盘 分 区 某 一 目录 下 。 接 下 来 什么 也 不 用 做 ,只 需 等 待 。 当 提示 正 
式 安装 完成 后 ,重新 启动 计算 机 系统 ,可 以 发 现在 启动 选项 中 有 “Ubuntu” 和 “Windows”。 
可 以 根据 读者 的 情况 进行 选择 。 

4. 使 用 Linux 

在 实验 过 程 中 ,需要 了 解 基于 命令 行 方式 的 编译 .调试 .运行 操作 系统 的 实验 方法 。 为 
此 ,需要 了 解 基本 的 Linux 命令 行使 用 。 


(1) 命令 模式 的 基本 结构 和 概念 。Ubuntu 是 当前 易于 使 用 和 操作 的 Linux 发 行 版 。 
Linux 的 命令 的 操作 模式 功能 可 以 实现 各 种 功能 。 简 单 地 说 ,命令 行 就 是 基于 字符 命令 的 
用 户 界 面 , 也 被 称 为 文本 操作 模式 。 绝 大 多 数 情况 下 , 用 户 通过 输入 一 行 或 多 行 命令 直接 
与 计算 机 互动 。 

(2) 如 何 进 入 命令 模式 。 假 设 Ubuntu Linux 启动 后 进入 图 形 界面 , 单 击 左 上 角 , 在 提 
示 行 输入 并 回 车 ,从 而 可 以 在 此 软件 界面 中 进行 命令 行 操 作 。 

打开 gnome-terminal 程序 后 可 能 会 注意 到 类 似 下 面 的 界面 : 


chy@ chyhame- FC:~$ 15 

filel.txt file2.txt file3.txt tools 

“chy@ chyhome-PC: ~ $ "这些 字符 串 被 称 为 命令 终端 提示 符 , 它 表示 计算 机 已 经 就 
绪 , 正 在 等 待 着 用 户 输入 操作 指令 。 以 作者 的 屏幕 画面 为 例 ,chy 是 当前 所 登录 的 用 户 名 ， 
chyhome-PC 是 这 台 计 算 机 的 主机 名 ,一 表示 当前 目录 。 此 时 输入 任何 指令 按 Enter 键 之 后 
该 指令 将 会 提交 到 计算 机 运行 ,比如 可 以 输入 命令 : ls 再 按 下 Enter 键 : 


1s [Enter] 


注意 : [Enter] 是 指 输入 完 ls 后 按 下 Enter 键 ,而 不 是 输入 这 个 单词 ,ls 这 个 命令 将 会 
列 出 当前 所 在 目录 里 的 所 有 文件 和 子 目录 列表 。 

下 面 介 绍 Bash Shell 程序 的 基本 使 用 方法 , 它 是 Ubuntu 默认 的 外 壳 程 序 。 

1) 常用 指令 

(1) 查询 文件 列表 : Is. 


chy@ chyhame- PC:~ $ 1s 

filel.txt file2.txt file3.txt tools 

ls 命令 默认 状态 下 将 按 首 字母 升序 列 出 当前 文件 夹 下面 的 所 有 内 容 , 但 这 样 直接 运行 
所 得 到 的 信息 是 比较 少 的 ,通常 它 可 以 结合 以 下 这 些 参数 运行 以 查询 更 多 的 信息 。 

© Is /: 将 列 出 根 目录 “/”* 下 的 文件 清单 。 如 果 给 定 一 个 参数 , 则 命令 行 会 把 该 参数 当 
作 命 令 行 的 工作 目录 。 换 句 话说 ,命令 行 不 再 以 当前 目录 为 工作 目录 。 

© Is -1: 将 列 出 一 个 更 详细 的 文件 清单 。 

@ Is -a: 将 列 出 包括 隐藏 文件 (以 “. "开头 的 文件 ) 在 内 的 所 有 文件 。 

@ Is -lh: 将 以 KB/MB/GB 的 形式 给 出 文件 大 小 ,而 不 是 以 纯粹 的 Bytes, 

(2) 查询 当前 所 在 目录 : pwd。 


chy@ chyhane- PC:~ $ pwd 
/home/chy 


(3) 进入 其 他 目录 : cd。 


chy@ chyhome- EC:~ $ pwd 
/home/chy 
chy@ chyhame - EC:~ $ od /root/ 
chy@ chyhame- PC:~ $ prd 
Aroct 

“6. 


上 面 的 例子 中 ,当前 目录 原来 是 /home/chy ,执行 cd /root/ 之 后 再 运行 pwd 可 以 发 现 ， 
当前 目录 已 经 改 为 /root 了 。 
(4) 在 屏幕 上 输出 字符 : echo. 


chy@ chyhame- PC:~ $ edho"Hello World" 
Hello World 


这 是 一 个 很 有 用 的 命令 , 它 可 以 在 屏幕 上 输入 指定 的 字符 串 (”"" 中 的 内 容 ), 可 用 于 信息 
提示 和 输出 相关 内 容 等 要 求 。 
(5) 显示 文件 内 容 : cat. 


chy@ chyhame- PC:~ $ cat filel.txt 
Roses are red. 

Violets are blue, 

and you have the bird- flue! 


也 可 以 使 用 less 或 more 命令 来 显示 比较 大 的 文本 文件 内 容 。 
(6) 复制 文件 : cp. 


chy@ chyhame- FC:~ $ œp filel.txt filel_copy.txt 
chy@ chyhame- PC:~ $ cat filel _copy.txt 

Roses are red. 

Violets are blue, 

and you have the bird- flue! 


这 个 命令 可 以 复制 一 个 文件 的 内 容 到 另 一 个 文件 中 。 
(7) 移动 文件 : mv。 


chy@ chyhame- FC:~ $ 1s 
filel.txt 

file2.txt 

chy@ chyhame- FC:~ $ my filel.txt new file.txt 
chy@ chyhane- FC:~ $ 1s 

file2.txt 

new file.txt 


这 个 命令 可 以 简单 理解 为 一 个 文件 改名 字 。 
注意 : 在 命令 行 模式 进行 操作 时 ,系统 基本 上 不 会 给 丰富 的 提示 信息 ,当然 , 绝 大 多 数 
的 命令 可 以 通过 加 上 一 个 参数 -v 来 要 求 系统 给 出 执行 命令 的 反馈 信息 。 


chy@ chyhome- FC:~ $mv-v filel.txt new file.txt 
‘filel.txt'- > 'new file.txt" 


(8) 建立 一 个 内 容 为 空 的 文本 文件 : touch. 


chy@ chyhame- PC:~ $ 1s 
filel.txt 

chy@ chyhame- EC:~ $ touch tenpfile.txt 
chy@ chyhame- PC:~ $ 1s 


filel txt 

tempfile.txt 

如 果 查 看 tempfile. txt 的 内 容 , 可 以 发 现 此 文件 没有 存放 任何 信息 。 
(9) 建立 一 个 目录 : mkdir。 


chy@ chyhare- PFC:~ $ 1s 

filel.txt 

tenpfile.txt 

chy@ chyhame- PC:~ $ mkdir test dir 
chy@ chyhame- PC:~ $ 1s 

五 lel .txt 


tempfile.txt 

test_dir 

这 个 命令 可 用 来 创建 文件 或 目录 。 

(10) 删除 文件 /目录 : rm. 

chy@ cdhyhome- PC:~$1s -p 

filel.txt 

tempfile.txt 

test_dir/ 

ls 命令 的 一 p 参数 可 以 给 目录 显示 增加 一 个 “/”, 这 样 可 以 更 清楚 看 出 一 个 文件 是 否 是 
目录 文件 。 

chy@ chyhame- FC:~ $ mm i tenpfile.txt 

m: remove regular empty file 'test.txt'?y 

chy@ chyhame- PC:~ $ 1s-p 

filel.txt 

test_dir/ 

可 以 看 到 test. txt 文件 已 经 被 删除 了 。 

chy@ cdhyhcome FC:~ $ m test dir 

m: cannot remove 'test_dir': Is a directory 

chy@ chyhame- PC:~ $ m-R test dir 

删除 一 个 目录 需要 增加 新 的 参数 “-R” 或 “-r”, 这 样 才 能 删除 此 目录 下 的 所 有 文件 和 目 
录 本 身 。 使 用 此 命令 需要 小 心 。 

chy@ chyhame- FC:~ $1s-p 

filel.txt 

可 以 看 到 test dir 目录 文件 已 经 被 删除 了 。 

在 上 面 的 操作 中 ,首先 通过 Is 命令 查询 可 知 当前 目下 有 两 个 文件 和 一 个 文件 夹 。 

O 可 以 用 参数 “-p" 来 让 系统 显示 某 一 项 的 类 型 ,比如 是 文件 /文件 夹 /快捷 链接 等 。 

© 用 rm-i 尝试 删除 文件 ,“-i” 参 数 是 让 系统 在 执行 删除 操作 前 输出 一 条 确认 提示 ; 
i(Interactive) 也 就 是 交互 性 的 意思 。 

Se 


© 当 人 们 尝试 用 上 面 的 命令 去 删除 一 个 文件 夹 时 会 得 到 错误 的 提示 ,因为 删除 文件 夹 
必须 使 用 “-R” 或 “-r”(Recursive, 循 环 ) 参 数 。 

特别 提示 : 在 使 用 命令 行 操作 方式 时 ,系统 假设 操作 人 员 很 明确 自己 在 做 什么 , 它 不 会 
给 太 多 的 提示 ,比如 执行 rm-Rf/. 它 将 会 删除 硬盘 上 所 有 的 东西 ,并 且 不 会 给 出 任何 提示 ， 
所 以 ,尽量 在 使 用 命令 时 加 上 “-i” 的 参数 .以 让 系统 在 执行 前 进行 一 次 确认 ,防止 执行 误 操 
作 。 如 果 觉 得 每 次 都 要 输入 “-i” 太 麻烦 ,可 以 执行 以 下 的 设置 别名 命令 alias, 让 “-i” 成 为 rm 
命令 的 默认 参数 : 


alias me 'm-i' 
(11) 查询 当前 进程 : ps。 


chy@ chyhome- FC:~ $ ps 

PID TIY TIME CMD 

21071 pts/L 00:00:00 bash 

22378 pts/L 00:00:00 ps 

这 条 命令 会 列 出 当前 运行 中 的 所 有 进程 。 

注意 : 这 个 命令 的 参数 没有 “-”。 

“ps-a" 可 以 列 出 系统 当前 运行 的 所 有 进程 ,包括 由 其 他 用 户 启动 的 进程 。 

© “ps auxww” 会 列 出 除 一 些 很 特殊 进程 以 外 的 所 有 进程 ,并 会 以 一 个 可 读 的 形式 显 
示 结 果 , 每 一 个 进程 都 会 有 较为 详细 的 解释 。 

基本 命令 的 介绍 就 到 此 为 止 , 可 以 访问 网 络 得 到 更 加 详细 的 Linux 命令 介绍 。 

2) 控制 流程 

(1) 输入 输出 。input 用 来 读 取 通 过 键盘 (或 其 他 标准 输入 设备 ) 输 入 的 信息 ,output 用 
于 在 屏幕 (或 其 他 标准 输出 设备 ) 上 输出 指定 的 输出 内 容 。 另 外 还 有 一 些 标准 的 出 错 提示 也 
是 通过 这 个 命令 来 实现 的 。 通 常 在 遇 到 操作 错误 时 ,系统 会 自动 调用 这 个 命令 来 输出 标准 
错误 提示 。 

能 重 定向 命令 中 产生 的 输入 和 输出 流 的 位 置 。 

(2) 重 定向 。 如 果 想 把 命令 产生 的 输出 流 导 入 一 个 文件 而 不 是 (默认 的 ) 终 端 ,可 以 使 
用 如 下 的 语句 : 

chy@ chyhame- PC:~ $ 1s> file4.txt 

chy@ chyhame- PC:~ $ cat file4.txt 

filel.txt file2.txt file3.txt 

如 果 filed. txt 不 存在 的 话 , 以 上 例子 将 创建 文件 filed. txt. 

注意 : wR filed. txt 已 经 存在 ,那么 上 面 的 命令 将 履 盖 文件 的 内 容 。 如 果 想 将 内 容 添 
加 到 已 存在 的 文件 内 容 的 末尾 ,可 以 用 下 面 的 命令 模式 : 


camend> > filename 
示例 : 


chy@ chyhane- FC:~ $ 1s> > file4.txt 
chy@ chyhame- FC:~ $ cat filed txt 


filel.txt file?.txt file3.txt 
filel.txt file2.txt file3.txt file4.txt 


在 这 个 例子 中 ,会 给 原 有 的 文件 中 添加 了 新 的 内 容 。 接 下 来 会 见 到 另 一 种 重 定向 方式 ， 
将 把 一 个 文件 的 内 容 作 为 将 要 执行 的 命令 的 输入 。 以 下 是 这 个 命令 模式 : 


camand< filename 
示例 : 


chy@ chyhame- PC:~ $ cat> file5.txt 
atè 

a2.txt 

file2.txt 

filel.txt 

<Ctrl- D> //AX RRA ctrl+D 键 


在 上 述 命令 中 ,通过 cat 和 二 命令 创建 了 一 个 文件 file5. txt. 


chy@ chyhame- PC:~ $ sort< file5.txt 
a2.txt 

a3.txt 

filel.txt 

file2.txt 


在 上 述 命令 中 ,sort 接受 file5. txt 的 每 一 行 的 内 容 , 并 按照 字母 排序 ,最 后 再 输出 到 屏 
幕 上 。 

(3) 管道 。Linux 的 强大 之 处 在 于 它 能 把 几 个 简单 的 命令 联合 起 来 成 为 功能 强大 的 命 
令 , 这 通过 键盘 上 的 管道 符号 "|? 完 成 。 现 在 ,来 排序 上 面 的 grep 命令 : 


chy@ chyhame- PC: ~ $ grep txt< file5.txt|sort> file6é.txt 


在 上 述 命令 组 合 中 ,grep 命令 搜索 file5 中 包含 "txt" 的 字符 串 ETRY xe” hyt 
出 行 通过 “| ”管道 命令 传递 给 sort ATS «sort 命令 对 这 些 字符 串 行 进行 排序 ,并 把 排 好 序 的 
字符 串 行 写 和 人 到 文件 file6. txt. 

另外 一 个 小 例子 : 有 时 候 用 1s 命令 列 出 的 文件 信息 很 多 ,超过 了 一 屏 ,导致 看 起 来 很 不 
方便 ,这 时 “| ?管道 命令 也 可 以 发 挥 作用 ,尝试 执行 “ls-1|1ess” 可 一 页 一 页 地 看 信息 。 

(4) 后 台 命 令 。 通 过 后 台 进 程 的 方式 ,可 以 在 命令 行 并 发 运行 多 个 命令 。 方 法 很 简单 ， 
要 启动 一 个 命令 到 后 台 执 行 ,只 需 在 通常 的 命令 后 追加 一 个 & 即 可 。 

sleep 60 & 

is 

睡 眼 命 令 sleep 在 后 台 运 行 ,操作 人 员 依 然 可 以 与 计算 机 交互 。 除 了 不 同步 启动 命令 
以 外 ,最 好 把 & 理解 成 “;”。 

如 果 有 一 个 前 台 命 令 将 占用 很 多 时 间 ,您 想 把 它 放 入 后 台 运 行 。 只 要 在 命令 运行 时 按 
下 Ctrl 十 Z 的 组 合 键 , 它 就 会 挂 起 暂停 。 然 后 输入 bg 命令 ,可 把 当前 挂 起 的 这 个 前 台 命 令 
转 和 人 后 台 执行 。 如 果 想 让 它 再 转 到 前 台 执 行 ,可 通过 执行 fg 命令 使 其 转 回 前 台 。 

。10 。 


<ctrl-2> ERA BA ctrl+z 组 合 键 


fg 


另外 ,如 果 不 想 让 一 个 前 台 命 令 继续 执行 ,可 以 使 用 Ctrl 十 C 组 合 键 来 杀 死 当前 的 前 台 


3) 环境 变量 

特殊 变量 。PATH PS1、… 

4) 不 显示 中 文 

可 通过 执行 如 下 命令 避免 显示 乱码 中 文 。 在 一 个 shell 中 ,执行 ， 


export LANG="™ 


这 样 在 这 个 Shell 中 ,output 信息 默认 是 英文 。 

5) 获得 软件 包 

CL) 命令 行 获取 软件 包 。 

Ubuntu 下 可 以 使 用 apt-get 命令 ,apt-get 是 一 条 Linux 命令 行 命令 ,适用 于 deb 包 管 
理 式 的 操作 系统 ,主要 用 于 自动 从 互联 网 软件 库 中 搜索 、 安 装 、 升 级 以 及 印 载 软件 或 者 操作 
系统 。 一 般 需 要 root 执行 权限 ,所 以 一 般 跟随 sudo 命令 ,例如 : 


sudo apt-get install gcc\Enter\ 


常见 的 以 及 常用 的 apt 命令 如 下 。 

© apt-get install<package>; 下 载 二 package 二 以 及 所 依赖 的 软件 包 , 同 时 进行 软件 
包 的 安装 或 者 升级 。 

@ apt-get remove<package>: 移 除 二 package 二 以 及 所 有 依赖 的 软件 包 。 

@ apt-cache search<pattern>; 搜索 满足 二 pattern 二 的 软件 包 。 

@ apt-cache show/showpkg<package>: fm 4k f1<package> M 56 BAHIA 

例如 : 


chy@ chyhame- PC:~ $ apt- cache show gcc 

gcc- 4.6- The GWU C ompiler 

gcc- 4.6- base- The GNU Compiler Collection (base package) 

gcc- 4.6- doc- Documentation for the QW campilers (gcc, gdbjc, g++) 
gcc- 4.6- mltilib- The QW C ompiler (miltilib files) 

gcc- 4.6- source- Source of the GNU Campiler Collection 

gcc- 4.6- locales- The GWU C ompiler (native language support files) 
chy@ chyhame- PC:~ $ 


(2) 图 形 界面 软件 包 获 取 。 
新 立 得 软件 包 管理 器 是 Ubuntu 下 面 管理 软件 包 的 图 形 界面 程序 ,相当 于 命令 行 中 的 
apt 命令 。 进 入 方法 可 以 是 
菜单 栏 > 系统 管理 > 新 立 得 软件 包 管理 器 (System Administration Synaptic Package Manager) 
Pan | es 


使 用 更 新 管理 器 可 以 通过 标记 选择 适当 的 软件 包 进 行 更 新 操作 。 

6) 配置 升级 源 

Ubuntu 的 软件 包 获 取 依 赖 升级 源 , 可 以 通过 修改 /etc/apt/sources. list 文件 来 修改 升 
级 源 ( 需 要 root 权限 ); 或 者 修改 新 立 得 软件 包 管理 器 中 “设置 "一 “软件 库 ”。 

7) 查找 帮助 文件 

Ubuntu 下 提供 man 命令 以 完成 帮助 手册 得 查询 。man 是 manual 的 缩写 ,通过 man 
命令 可 以 对 Linux 下 常用 命令 、 安 装 软件 ,以 及 C 语言 常用 函数 等 进行 查询 ,获得 相关 帮 
助 。 例 如 : 


cchy@ chyhane- PC:~ $ man printf 
PRINTF (1) BSD General Commands Manual PRINTF (1) 


MME 


通常 可 能 会 用 到 的 帮助 文件 ,例如 : 

gcc- doc qp- doc glibc- doc 

上 述 帮助 文件 可 以 通过 apt-get 命令 或 者 软件 包 管 理 器 获得 。 获 得 以 后 可 以 通过 man 
命令 进行 命令 或 者 参数 查询 。 

5. 实验 中 可 能 使 用 的 软件 

1) 编辑 器 

(1) Ubuntu 中 自 带 的 编辑 器 可 以 作为 代码 编辑 的 工具 。 例 如 ,gedit 是 Gnome 桌面 环 
Se BARA UTF-8 的 文本 编辑 器 。 它 十 分 简单 易 用 ,有 良好 的 语法 高 亮 显 示 , 对 中 文 支持 很 
好 。 通 常 可 以 通过 双击 或 者 命令 行 打开 目标 文件 进行 编辑 。 

(2) Vim 编辑 器 : Vim 是 一 款 方便 的 文本 编辑 软件 ,是 UNIX 下 的 同类 型 软件 VI 的 改 
进 版 本 。Vim 经 常 被 看 成 “专门 为 程序 员 打 造 的 文本 编辑 器 ”, 功 能 强大 且 方 便 使 用 ,便于 
进行 程序 开发 。 

Ubuntu 下 默认 安装 的 VI 版 本 较 低 ,功能 较 弱 ,建议 在 系统 内 安装 或 者 升级 到 最 新 版 
本 的 Vim. 

OD 关于 Vim 的 常用 命令 以 及 使 用 ,可 以 通过 网 络 进行 查找 。 

© 配置 文件 : Vim 的 使 用 需要 配置 文件 进行 设置 ,例如 : 


set nocarpatible 

set encoding= utf- 8 

set fileencodings= utf- 8, chinese 

set tabstop= 4 

set cindent shiftwidth= 4 

set backspace= indent,eol, start 

autoand Filetype c set amifunc= ccamplete# Complete 
autoand Filetype qp set amifunc= qgpcomplete# Camplete 
set incsearch 

set number 


x 12 @ 


set display= lastline 
set ignorecase 
syntax on 

set nobackup 

set ruler 

set showamd 

set smartindent 

set hlsearch 

set andheight=1 

set laststatus=2 

set shortmess= atI 

set formatoptions= terp 
set autoindent 

可 以 将 上 述 配置 文件 保存 到 : 


~/-vimrc 


HEB: . vimrc 默认 情况 下 隐藏 不 可 见 ,可 以 在 命令 行 中 通过 “]s-a” 命 令 进行 查看 。 如 
果 一 目录 下 不 存在 该 文件 ,可 以 手动 创建 。 修 改 该 文件 以 后 ,重启 Vim 可 以 使 配置 生效 。 

2) exuberant-ctags 

exuberant-ctags 可 以 为 程序 语言 对 象 生 成 索引 ,其 结果 能 够 被 一 个 文本 编辑 器 或 者 其 
他 工具 简捷 迅速 地 定位 。 支 持 的 编辑 器 有 Vim, Emacs 等 。 

实验 中 ,在 需要 建立 索引 的 lab 源码 目录 下 ,可 以 使 用 : 


chy@ chyhame- Pc~ /ucore/ab/code/ | abl$ ctags-R 


来 对 工程 文件 建立 索引 。 

默认 的 生成 文件 为 tags( 可 以 通过 -f 来 指定 tags 的 索引 文件 名 ) ,在 相同 路 径 下 执行 
vim 命令 可 以 让 Vim 软件 使 用 该 索引 文件 ,在 Vim 的 编辑 模式 下 ,可 方便 地 定位 源码 中 的 
声明 和 定义 等 ,例如 : 

使 用 Ctrl 十 ] 组 合 键 可 以 跳 转 到 相应 的 声明 或 者 定义 处 ,使 用 Ctrl 十 t 组 合 键 返回 (查询 
堆栈 ) 等 。 

提示 : 习惯 GUI 方式 的 同学 ,可 采用 图 形 界面 的 Understand Source Insight 等 软件 。 

3) diff& patch 

diff 为 Linux 命令 ,用 于 比较 文本 或 者 文件 夹 差 异 , 可 以 通过 man 来 查询 其 功能 以 及 参 
数 的 使 用 。 使 用 patch 命令 可 以 对 文件 或 者 文件 夹 应 用 修改 。 

例如 ,实验 2 中 会 继承 应 用 前 一 个 实验 lproja 中 对 某 些 文件 进行 的 修改 ,可 以 使 用 如 下 
命令 : 

diff- ruP labl origlabl new> diff.patch 

cd lab2 

patch- pl-u< ../diff.patch 

注意 : labl_orig 指 labl 的 源 文 件 目 录 , 即 未 经 修改 的 源码 包 ,labl_new 是 修改 后 的 
labl 的 源 文件 目录 。 第 一 条 命令 是 递归 的 比较 文件 夹 差 异 ,并 将 结果 重 定向 输出 到 
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diff. patch 文件 中 ;第 三 条 命令 是 将 labl 的 修改 应 用 到 lab2 文件 夹 中 的 代码 中 。 
提示 : 习惯 GUI 方式 的 读者 ,可 采用 图 形 界 面 的 Meld、Kdiff3、UltraCompare 等 
软件 。 


1.2.3 了 解 编程 开发 调试 的 基本 工具 


在 Ubuntu Linux 中 的 C 语言 编程 主要 基于 GNU C 的 语法 ,通过 gcc 来 编译 并 生成 最 
终 执行 文件 。GNU 汇编 (Assembler) 采 用 的 是 AT&T 汇 编 格式 ,Microsoft 汇编 采用 Intel 
格式 。 

1. gee 的 基本 用 法 

如 果 还 没 装 gce 编译 环境 或 不 确定 是 否 安 装 , 问 先 执行 : 


chy@ chyhame- PC: ~ $ sudo apt- get install build- essential 


来 确保 安装 了 编译 所 需 的 gcc 等 各 种 软件 工具 。 注 意 : sudo 命令 的 含义 是 已 root 特 
权 用 户 的 身份 执行 apt-get 命令 。 如 果 系 统 提示 要 输入 口令 , 则 只 需 输 入 一 个 空格 即 可 。 

1) 编译 简单 的 C 程序 

C 语言 经 典 的 入 门 例子 是 Hello world, 下 面 是 一 示例 代码 : 


# include< stdio.h> 

int 

main (void) 

{ 
printf ("Hello, world!\n"); 
retum 0; 

} 


假定 该 代码 存 为 文件 hello. c, 要 用 gec 编译 该 文件 ,使 用 下 面 的 命令 : 
chy@ chyhame- PC: ~ $ gcc- Wall hello.c-o hello 


该 命令 将 文件 hello. c 中 的 代码 编译 为 机 器 码 并 存储 在 可 执行 文件 hello 中 。 机 器 码 的 
文件 名 是 通过 -o 选项 指定 的 。 该 选项 通常 作为 命令 行 中 的 最 后 一 个 参数 。 如 果 被 省 略 , 输 
出 文件 默认 为 a. out。 

注意 ,如 果 当 前 目录 中 与 可 执行 文件 重 名 的 文件 已 经 存在 , 它 将 被 覆盖 。 

选项 -Wall 开启 编译 器 几乎 所 有 常用 的 警告 一 一 建议 你 始终 使 用 该 选项 。 编 译 器 有 
很 多 其 他 的 警告 选项 ,但 “-Wall" 是 最 常用 的 。 默 认 情况 下 gee 不 会 产生 任何 警告 信息 。 当 
编写 C 或 C++ 程序 时 编译 器 警告 非常 有 助 于 检测 程序 存在 的 问题 。 

本 例 中 ,编译 器 使 用 了 “-Wall” 选 项 而 没 产生 任何 警告 ,因为 示例 程序 是 完全 合法 的 。 

要 运行 该 程序 ,输入 可 执行 文件 的 路 径 如 下 : 

chy@ chyhame- FC: ~ $ ./hello 

Hello, world! 

这 将 可 执行 文件 载 人 内 存 , 并 使 CPU 开始 执行 其 包含 的 指令 。 路 径 . / 指 代 当 前 目录 , 因 
此 . /hello 载 人 并 执行 当前 目录 下 的 可 执行 文件 hello。 
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2) AT&T 汇 编 基本 语法 

Ucore 中 用 到 的 是 ATST 格式 的 汇编 ,与 Intel 格式 的 汇编 有 一 些 不 同 。 二 者 在 语法 
上 主要 有 以 下 几 个 不 同 。 

(1) 寄存 器 命名 原则 。 


ATST: % eax Tntel: eax 
(2) 源 / 目 的 操作 数 顺序 。 

ATST: movl Seax, % ebx Intel: mov ebx, eax 
(3) 常数 /立即 数 的 格式 。 

RT&T: movl$_value, % ebx Intel: mov eax, _value 


(4) 把 value 的 地 址 放 和 人 eax 寄存 器 。 


AT&T: movl$ Oxd00d, % ebx Intel: mov ebx, Oxd00d 
(5) 操作 数 长 度 标识 。 

AT&T: mow % ax, % bx Intel: mov bx, ax 
(6) 寻 址 方式 。 


AT&T: inmed32 (basepointer, indexpointer, indexscale) 

Intel: [basepointer+ indexpointer X indexscale+ inm32) 

如 果 操 作 系统 工作 于 保护 模式 下 ,用 的 是 32 位 线性 地 址 ,所 以 在 计算 地 址 时 不 用 考虑 
segment:offset 的 问题 。 上 式 中 的 地 址 应 为 

imm32+ basepointer+ indexpointer X indexscale 

O 直接 寻 址 。 

AT&T: _boo ; _boo 是 一 个 全 局 的 C 变量 。 注 意 加 上 $ 是 表示 地 址 引用 ,不 加 是 表示 
值 引用 。 对 于 局 部 变量 ,可 以 通过 堆栈 指针 引用 。 


Intel: [_boo] 
@ 寄存 器 间接 寻 址 。 


AT&T: (% eax) 
Intel: [eax] 


© 变 址 寻 址 。 


AT&T: _variable (% eax) 
Intel: [eax+ variable] 
AT&T: _array(,% eax, 4) 
Intel: [eaxX 4+ array] 
AT&T: _ array (% ehx, eax, 8) 
Intel: [ebxt eax 8+ _ array] 


3) GCC 内 联 汇编 

基本 的 GCC 内 联 汇编 很 简单 ,一 般 是 按照 下 面 的 格式 : 
asm("statements"); 

例如 : 

asm("nop"); asm ("cli"); 


asm 和 __asm _ 的 含义 是 完全 一 样 的 。 如 果 有 多 行 汇编 , 则 每 一 行 都 要 加 上 “\n\t”。 其 
中 的 “\n” 是 换行 符 ,“\t" 是 tab 符 。 在 每 条 命令 的 结束 加 这 两 个 符号 ,是 为 了 让 gee 把 内 联 
汇编 代码 翻译 成 一 般 的 汇编 代码 时 ,能够 保证 换行 和 留 有 一 定 的 空格 。 例 如 : 


asm( "pushl % eax\n\t" 
"movl$ 0,% eax\n\t" 
"popl % eax" 


实际 上 gee 在 处 理 汇编 时 ,是 要 把 asm(…) 的 内 容 * 打 印 ? 到 汇编 文件 中 ,所 以 格式 控制 
字符 是 必要 的 。 再 例如 : 


asm("movl % eax, $ex"); 
asm("xorl % ebx % edx"); 
asm("movl$ 0, _boo); 


在 上 面 的 例子 中 ,在 内 联 汇编 中 改变 了 edx 和 ebx 的 值 ,但 是 由 于 gee 的 特殊 的 处 理 
方法 ( 即 先 形成 汇编 文件 ,再 交 给 gas 汇编 软件 去 分 析 此 汇编 文件 ) ,所 以 gas 汇编 软件 并 不 
知道 我 们 已 经 改变 了 edx 和 ebx 的 值 ,如 果 程 序 的 上 下 文 需要 edx BK ebx 作 暂 存 ,这 样 就 
会 引起 严重 的 后 果 , 对 于 变量 _boo 也 存在 同样 的 问题 。 为 了 解决 这 个 问题 ,就 要 用 到 扩展 
GCC 内 联 汇编 语法 来 避免 潜在 的 访问 冲突 问题 。 

4) 扩展 GCC 内 联 汇编 

使 用 扩展 GCC 内 联 汇编 的 例子 如 下 : 

# define read cr0() ({ \ 

unsigned int dummy; \ 
__asn__(\ 
"movl $% % cr0,% O\n\t" \ 
"=x" (__ammy));\ 
__dumy; \ 
}) 


这 里 需要 从 其 基本 格式 来 分 析 其 含义 。 扩展 GCC 内 联 汇编 的 基本 格式 如 下 : 


am __wolatile _("<am routine>" : output : input : modify); 


其 中 : 
(1) __asm_ _ 表 示 汇 编 代 码 的 开始 ,其 后 可 以 跟 __volatile__( 这 是 可 选项 ) ,其 含义 是 


避免 asm 指令 被 删除 .移动 或 组 合 。 
M 


(2) 在 执行 代码 时 ,如 果 不 希 望 汇编 语句 被 gee 优化 而 改变 位 置 ,就 需要 在 asm 符号 后 
添加 volatile 关键 词 : asm volatile(…); 或 者 更 详细 地 说 明 为 ”asm ” __volatile__(+++) ;5& 
后 就 是 小 括号 ,括号 中 的 内 容 是 具体 的 内 联 汇编 指令 代码 。 

(3) "<asm routine 过 "为 汇编 指令 部 分 ,例如 ,"movl %%cr0,%0\n\t"。 数 字 前 加 前 
级 %, 如 %1、%2 等 表示 使 用 寄存 器 的 样板 操作 数 。 可 以 使 用 的 操作 数 总 数 取决 于 具体 
CPU 中 通用 寄存 器 的 数 量 , 如 Intel 可 以 有 8 个 。 

(4) 汇编 指令 部 分 中 有 几 个 操作 数 ,就 说 明 有 几 个 变量 需要 与 寄存 器 结合 ,由 gee 在 编 
译 时 根据 后 面 输出 部 分 和 输入 部 分 的 约束 条 件 进行 相应 的 处 理 。 由 于 这 些 样板 操作 数 的 前 
级 使 用 了 “%”, 因 此 ,在 用 到 具体 的 寄存 器 时 就 在 前 面 加 两 个 %, 如 %%cr0。 

(5) 输出 部 分 (Output) 用 以 规定 对 输出 变量 (目标 操作 数 ) 如 何 与 寄存 器 结合 的 约束 
(Constraint) ,输出 部 分 可 以 有 多 个 约束 ,互相 以 逗号 分 开 。 每 个 约束 以 = 开头 ,接着 用 一 个 
字母 来 表示 操作 数 的 类 型 ,然后 是 关于 变量 结合 的 约束 。 例 如 ,上 例 中 : 


“三 r” 表 示 相 应 的 目标 操作 数 ( 指 令 部 分 的 %0) 可 以 使 用 任何 一 个 通用 寄存 器 ,并 且 变 
量 __dummy 存放 在 这 个 寄存 器 中 ,但 如 果 是 : 
:"=m"(__ dummy) 
“一 m"” 就 表示 相应 的 目标 操作 数 是 存放 在 内 存单 元 __dummy 中 。 表 示 约 束 条 件 的 字 
母 很 多 , 表 1-1 给 出 几 个 主要 的 约束 字母 及 其 含义 。 
表 1-1 主要 约束 字母 及 含义 
字母 a x 字母 a X 
m,v,0 | 内 存单 元 G 任意 
寄存 器 eax/ax/al, ebx/bx/bl, ecx/cx/cl 


R 任何 通用 寄存 器 asb.c.d S edx/dx/dl 

Q 寄存 器 eax ebx ecx edx 之 一 SD 寄存 器 esi BK edi 
Ih 直接 操作 数 I 常数 (0 一 31) 
E.F 浮 点 数 


(6) 输入 部 分 (Input) : 输入 部 分 与 输出 部 分 相似 ,但 没有 三 。 如 果 输 入 部 分 一 个 操作 
数 所 要 求 使 用 的 寄存 器 与 前 面 输出 部 分 某 个 约束 所 要 求 的 是 同一 个 寄存 器 , 那 就 把 对 应 操 
作 数 的 编号 (如 1、2 等 ) 放 在 约束 条 件 中 ,在 后 面 的 例子 中 会 看 到 这 种 情况 。 

(7) 修改 部 分 (Modify) :这 部 分 常常 以 Memory 为 约束 条 件 , 以 表示 操作 完成 后 内 存 中 
的 内 容 已 有 改变 ,如 果 原 来 某 个 寄存 器 的 内 容 来 自 内 存 ,那么 现在 内 存 中 这 个 单元 的 内 容 已 
经 改变 。 注意 ,指令 部 分 为 必 选 项 ,而 输入 部 分 输出 部 分 及 修改 部 分 为 可 选项 , 当 输 入 部 分 
存在 ,而 输出 部 分 不 存在 时 ,冒号 (: ) 要 保留 , 当 memory 存在 时 ,三 个 冒号 都 要 保留 ,例如 : 


#define cli() asm _ volatile _("cli": : :"menory") 


下 面 是 一 个 例子 (为 方便 起 见 , 使 用 全 局 变量 ): 
e176 


int count= 1; 


int value=17 
int buf [10]; 
void main () 
{ 
asm( 
ncld nt" 
"rep nt" 


"stosl" 


: "c" (count), "a" (value) , "D" (ouf[0]) 
: "becx", "5 edi" 
) 7 

} 


得 到 的 主要 汇编 代码 如 下 : 


movl comt, $% ecx 
movl value,% eax 
movl buf,% edi 

# APP 

cld 

rep 

stosl 

# NO APP 


上 述 几 条 汇编 指令 的 功能 是 向 buf 中 写 上 count 4% value 值 。 冒 号 后 的 语句 指明 输入 、 
输出 和 被 改变 的 寄存 器 。 通 过 冒号 以 后 的 语句 ,编译 器 就 知道 指令 需要 和 改变 哪些 寄存 器 ， 
从 而 可 以 优化 寄存 器 的 分 配 。 其 中 字符 c(count) 指 示 要 把 count 的 值 放 入 ecx 寄存 器 。 类 
似 的 还 有 : 


aeax 

b ebx 

Cecx 

dedx 

Sesi 

Dedi 

I 常数 值 , (0~ 31) 

gr 动态 分 配 的 寄存 器 

g eax,ebx,ecx,edx 或 内 存 变量 

A 把 eax Al edx 合成 一 个 @4 位 的 寄存 器 (use long longs) 


也 可 以 让 gee 自己 选择 合适 的 寄存 器 ,如 下 面 的 例子 ， 


asm("leal (%1,%1,4),%0" 
: =r" (x) 
"0" 四 
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) 
得 到 的 主要 汇编 代码 如 下 : 


movl x,% eax 

# APP 

leal (% eax,% eax, 4) ,% eax 

#NO APP 

movl $eax,x 

几 点 说 明 如 下 。 

(1) 使 用 q 指 示 编 译 器 从 eax ebx ecx edx 分 配 寄存 器 。 使 用 r 指示 编译 器 从 eax, 
ebx、ecx、edx、esi、edi 分 配 寄存 器 。 

(2) 不 必 把 编译 器 分 配 的 寄存 器 放 人 改变 的 寄存 器 列表 ,因为 寄存 器 已 经 记 住 了 它们 。 

(3) “一 ?是 标示 输出 寄存 器 。 

(4) 数字 %n 的 用 法 : 数字 表示 的 寄存 器 是 按照 出 现 和 从 左 到 右 的 顺序 映射 到 用 
“r? 或 “q" 请 求 的 寄存 器 。 如 果 要 重用 ”"r? 或 “q" 请 求 的 寄存 器 的 话 ,就 可 以 使 用 它们 。 

(5) 如 果 强 制 使 用 固定 的 寄存 器 的 话 , 如 不 用 %1, 而 用 ebx, 则 方式 如 下 : 


asm("leal (% % ebx,% % ebx, 4) ,% 0" 
Per" (x) 
: "o" (x) 
); 

注意 : 要 使 用 两 个 %, 因 为 一 个 % 的 语法 已 经 被 %n 用 掉 了 。 

2. make 和 makefile 

GNU make( 简 称 make) 是 一 种 代码 维护 工具 ,在 大 中 型 项 目 中 , 它 将 根据 程序 各 个 模 
块 的 更 新 情况 ,自动 地 维护 和 生成 目标 代码 。 

make 命令 执行 时 ,需要 一 个 makefile( 或 makefile) 文 件 , 以 告诉 make 命令 需要 怎样 去 
编译 和 链接 程序 。 首 先 ,我 们 用 一 个 示例 来 说 明 makefile 的 书写 规则 ,以 便 给 大 家 一 个 感 
性 认识 。 这 个 示例 来 源 于 gnu 的 make 使 用 手册 ,在 这 个 示例 中 ,工程 有 8 个 < 文件 和 3 个 
头 文件 , 写 一 个 makefile 来 告诉 make 命令 如 何 编译 和 链接 这 几 个 文件 。 规 则 如 下 : 

(1) 如 果 这 个 工程 没有 编译 过 ,那么 所 有 c 文件 都 要 编译 并 被 链接 。 

(2) 如 果 这 个 工程 的 某 几 个 c 文 件 被 修改 ,那么 只 编译 被 修改 的 文件 ,并 链接 目标 程序 。 

(3) 如 果 这 个 工程 的 头 文件 被 改变 了 ,那么 需要 编译 引用 了 这 几 个 头 文件 的 文件 ,并 
链接 目标 程序 。 

只 要 我 们 的 makefile 写 得 足够 好 ,所 有 的 这 一 切 , 只 用 一 个 make 命令 就 可 以 完成 ， 
make 命令 会 自动 智能 地 根据 当前 的 文件 修改 的 情况 来 确定 哪些 文件 需要 重 编译 ,从 而 自己 
编译 所 需要 的 文件 和 链接 目标 程序 。 

在 描述 makefile 之 前 ,可 粗略 地 看 一 看 makefile 的 规则 。 

target… : prerequisites- 

comand 
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target 是 一 个 目标 文件 ,可 以 是 object file, 也 可 以 是 执行 文件 ,还 可 以 是 一 个 标签 
(label) 。prerequisites 就 是 要 生成 那个 target 所 需要 的 文件 或 是 目标 。command 是 make 
需要 执行 的 命令 (任意 的 shell 命令 )。 这 是 一 个 文件 的 依赖 关系 ,也 就 是 说 ,target 这 一 个 
或 多 个 的 目标 文件 依赖 于 prerequisites 中 的 文件 ,其 生成 规则 定义 在 command 中 。 也 就 是 
说 ,prerequisites 中 如 果 有 一 个 以 上 的 文件 比 target 文件 要 新 的 话 ,command 所 定义 的 命令 
就 会 被 执行 。 这 就 是 makefile 的 规则 ,也 是 makefile 中 最 核心 的 内 容 。 

3. gdb 使 用 

gdb 是 功能 强大 的 调试 程序 ,可 完成 如 下 调试 任务 。 

(1) 设置 断 点 。 

(2) 监视 程序 变量 的 值 。 

(3) 程序 的 单 步 (step in/step over) 执 行 。 

(4) 显示 /修改 变量 的 值 。 

(5) 显示 /修改 寄存 器 。 

(6) 查看 程序 的 堆栈 情况 。 

(7) 远程 调试 。 

(8) 调试 线程 。 

在 可 以 使 用 gdb 调试 程序 之 前 ,必须 使 用 -g 或 -ggdb 编译 选项 编译 源 文件 。 运 行 gdb 
调试 程序 时 通常 使 用 如 下 的 命令 : 

gdb progname 

在 gdb 提示 符 处 输入 help ,将 列 出 命令 的 分 类 ,主要 的 分 类 如 下 。 

(1) aliases: 命令 别名 。 

(2) breakpoints; 断 点 定义 。 

(3) data: 数据 查看 。 

(4) files: 指定 并 查看 文件 。 

(5) internals; 维护 命令 。 

(6) running: 程序 执行 。 

(7) stack: 调用 栈 查看 。 

(8) status: 状态 查看 。 

(9) tracepoints: 跟踪 程序 执行 。 

输入 help 后 跟 命令 的 分 类 名 ,可 获得 该 类 命令 的 详细 清单 。gdb 的 常用 命令 如 表 1-2 所 示 。 

表 1-2 gdb 的 常用 命令 


名 K 介 OR 
break FILENAME:NUM 在 特定 源 文件 特定 行 上 设置 断 点 
clear FILENAME:NUM 删除 设置 在 特定 源 文件 特定 行 上 的 断 点 
run 运行 调试 程序 
step 单 步 执 行 调 试 程序 ,不 会 直接 执行 函数 
next 单 步 执行 调试 程序 ,会 直接 执行 函数 


BR 


名 B 介 绍 
backtrace 显示 所 有 的 调用 栈 帧 。 该 命令 可 用 来 显示 函数 的 调用 顺序 
continue 继续 执行 正在 调试 的 程序 
display EXPR 每 次 程序 停止 后 显示 表达 式 的 值 , 表 达 式 由 程序 定义 的 变量 组 成 
file FILENAME 装载 指定 的 可 执行 文件 进行 调试 
help CMDNAME 显示 指定 调试 命令 的 帮助 信息 
info break 显示 当前 断 点 列表 ,包括 到 达 断 点 处 的 次 数 等 
info files 显示 被 调试 文件 的 详细 信息 
info func 显示 被 调试 程序 的 所 有 函数 名 称 
info prog 显示 被 调试 程序 的 执行 状态 
info local 显示 被 调试 程序 当前 函数 中 的 局 部 变量 信息 
info var 显示 被 调试 程序 的 所 有 全 局 和 静态 变量 名 称 
kill 终止 正在 被 调试 的 程序 
list 显示 被 调试 程序 的 源 代码 
quit 退出 gdb 


下 面 通过 一 个 有 错误 的 例子 程序 来 介绍 gdb 的 使 用 : 


/* bagging.c* / 
# include stdio.h> 
# include stdlib.h> 


static char buff [256]; 
static char* string; 
int main () 
{ 
printf ("Please input a string: "); 
gets (string); 
printf ("\nYour string is: $s\n", string); 
} 
上 面 这 个 程序 非常 简单 ,其 目的 是 接受 用 户 的 输入 ,然后 将 用 户 的 输入 打印 出 来 。 该 程序 
使 用 了 一 个 未 初始 化 的 字符 串 地 址 string, 因 此 ,编译 并 运行 之 后 ,将 出 现 Segment Fault 错误 : 
chy@ chyhane- FC:~ $goc -g -o bugging bugging.c 
hy@ chyhame- EC: ~ $ ./bugging 
Please input a string: asdf 
Segmentation fault (core dumped) 
为 了 查找 该 程序 中 出 现 的 问题 ,利用 gdb 并 按 如 下 步骤 进行 : 
(1) 运行 “gdb bugging”, 加 载 bugging 可 执行 文件 : 


chy@ chyhame- PC: ~ $ gdb bugging 
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(2) 执行 装 入 的 bugging 命令: 

(gh) nn 

(3) 使 用 where 命令 查看 程序 出 错 的 地 方 : 

(gdb) where 

(4) 利用 list 命令 查看 调用 gets eR BCPA UE HARI : 

(gab) List 

(5) 在 gdb 中 ,我 们 在 第 11 行 处 设置 断 点 ,看 看 是 否 是 在 第 11 行 出 错 : 

(gio)break 11 

(6) 程序 重新 运行 到 第 11 行 处 停止 ,这 时 程序 正常 ,然后 执行 单 步 命 令 next: 

(gdb) next 

(7) 程序 确实 出 错 , 能 够 导致 gets 函数 出 错 的 因素 就 是 变量 string。 重 新 执行 测试 程 ， 
用 print 命令 查看 string 的 值 : 


(gdb) run 

(gdb)print string 

(gdb) $ 1= 0x0 

(8) 问题 在 于 string 指向 的 是 一 个 无 效 指针 ,修改 程序 ,在 10 行 和 11 行 之 间 增 加 一 条 
语 名 "string 一 buff;”, 重 新 编译 程序 ,然后 继续 运行 ,将 看 到 正确 的 程序 运行 结果 。 

用 gdb 查看 源 代码 可 以 用 list 命令 ,但 这 不 够 灵活 。 也 可 以 用 使 用 -tui 参数 ,这 样 进入 
gdb 里 面 后 就 能 直接 打开 代码 查看 窗口 。 其 他 与 代码 窗口 相关 的 命令 如 下 : 


info win 显示 窗口 的 大 小 

layout next 切换 到 下 一 个 布局 模式 
layout prev 切换 到 上 一 个 布局 模式 
layout src 只 显示 源 代 码 

layout asm 只 显示 汇编 代码 

layat split 显示 源 代 码 和 汇编 代码 
layout regs 增加 寄存 器 内 容 显示 
focus amd/src/asm/regs/next/prev 切换 当前 窗口 

refresh 刷新 所 有 窗口 

tui reg next 显示 下 一 组 寄存 器 

tui reg system 显示 系统 寄存 器 

update 更 新 源 代码 窗口 和 当前 执行 点 
winheight namet /- line 调整 name 窗 口 的 高 度 
tabset nchar 设置 tab 为 nqhar 个 字符 


4. 进一步 的 相关 内 容 

请 同学 们 在 网 上 搜寻 相关 资料 学 习 , 例 如 : 

gcc tools 相关 文档 ,版 本 管理 软件 (CVS、SVN、GIT 等 ) 的 使 用 ,等 等 。 
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12.4 基于 硬件 模拟 器 实现 源码 级 调试 


1. 安装 硬件 模拟 器 QEMU 

1) Linux 运行 环境 

QEMU 用 于 模拟 一 台 x86 计算 机 ,让 ucore 能 够 运行 在 QEMU 上 。 为 了 能 够 正确 地 
编译 和 安装 qdemu, 尽 量 使 用 最 新 版 本 的 qemu (http: //wiki. qemu. org/Download) ,或 者 
OS FTP 服务 器 上 提供 的 qemu 源码 qemu-1. 1. 0. tar. gz。 目 前 qemu 能 够 支持 最 新 的 
gcc-4. x 编译 器 。 例 如 ,在 Ubuntu12. 04 系统 中 ,默认 得 版 本 是 gcc-4. 6. x (可 以 通过 gee -v 
或 者 gcc --version 进行 查看 ) 。 

也 可 直接 使 用 ubuntu 中 提供 的 qdemu, 只 需 执行 如 下 命令 即 可 : 

chy@ chyhame- FC: ~ $ sudo apt- get install qm system 

也 可 以 采用 下 面 描述 的 方法 对 qemu 进行 源码 级 安装 。 

2) Linux 环境 下 的 源码 级 安装 过 程 

(1) 获得 并 应 用 修改 。 

编译 qemu 用 到 的 库 文 件 还 有 libsdl1. 2-dev 等 。 安 装 命令 如 下 : 

chy@ dyhare- EC: ~ $ sud apt-get install libedl1.2-der /安装 库 文件 libedl1.2- dev 

获得 qemu 的 安装 包 以 后 ,对 其 进行 解压 缩 ( 如 果 格 式 无 法 识别 ,请 下 载 相应 的 解压 缩 
软件 ) 。 

例如 ,qemu. tar. gz/qemu. tar. bz2 文件 ,在 命令 行 中 可 以 使 用 ， 

chy@ chyhome- FC: ~ $ tar zxvf qemu.tar.gz 
或 者 

chy@ chyhame- FC: ~ $ tar jxvf qEm.tar.bz2 

对 qemu 应 用 修改 : 如 果实 验 中 使 用 的 qemu 需要 打 patch ,应 用 过 程 如 下 : 

chy@ chyhome- EC:~ $ 1s 

gemi.patch mı 

chy@ chyhame- PC:~ $ cd gem 

chy@ chyhome- FC:~ /qem $ patch- pl- ux ../qemi.patch 

(2) 配置 编译 和 安装 。 

编译 以 及 安装 qemu 前 需要 使 用 二 qemu 记 (表示 qemu 解压 缩 路 径 ) 下 面 的 configure 
脚本 生成 相应 的 配置 文件 等 ,而 configure 脚本 有 和 较 多 的 参数 可 供 选 择 ,可 以 通过 如 下 命令 
进行 查看 : 

ol qm 

chy@ chyhare- PC: ~ /qemu$ ./configure - -help 

实验 中 可 能 会 用 到 的 命令 如 下 : 

chy@ chyhome- Pc: ~ /gem$ ./configure- ~ tart- list= "i386- softmu" 

// 配 置 qeru, 可 模拟 x86- 32 硬 件 环境 
OG 3s 


chy@ chyhame- PC: ~ /ogmuS . /make // 编 译 u 
chy@ chyhome- FC: ~ /qem$ ./sudo make install /安装 u 


注意 : 版 本 小 于 0.10.0 的 qemu 仅 支 持 gcc-3. x 版 本 编译 器 。 但 0. 10. x 以 上 版 本 的 
qemu 已 经 支持 用 gcc-4. x 编译 器 了 。 

qemu 执行 程序 将 默认 安装 到 /usr/local/bin 目录 下 。 

如 果 使 用 的 是 默认 的 安装 路 径 , 那 么 在 /usr/local/bin 下 面 即 可 看 到 安装 结果 : 


chy@ hy hme- EC: ~ /qemu$ 1s/usr/Local/bin 
qm» system- 1386 mu- img qur- nbd… 


建立 符号 链接 文件 qemu: 
sudo ln -s /usr/local/bin/qemi system- i386 /usr/local/bin/qem 


2. 使 用 硬件 模拟 器 QEMU 
1) 运行 参数 
如 果 qemu 使 用 的 是 默认 /usr/local/bin 安装 路 径 , 则 在 命令 行 中 可 以 直接 使 用 qemu 
命令 运行 程序 。qemu 运行 可 以 有 多 参数 ,格式 如 下 : 
gema[options] [disk image] 
其 中 ,disk_image 是 硬盘 镜像 文件 。 
部 分 参数 说 明 : 
-hda filev -hdb filev hdc filev “hdd file" 
使 用 file 作为 硬盘 0.1.2.3 镜像 。 
"fda file'/'-fdb file" 
使 用 file 作为 软盘 镜像 ,可 以 使 用 /dev/fdo 作为 file 来 使 用 主机 软盘 。 
“cdrom file' 
使 用 file 作为 光盘 镜像 ,可 以 使 用 /dev/cdrom 作为 file 来 使 用 主机 cd-rom. 
“bootLalcldj' 
从 软盘 (A)、 光 盘 (C) ,硬盘 启动 (D) ,默认 硬盘 启动 。 
-snapshot ' 
写 入 临时 文件 而 不 写 回 磁盘 镜像 ,可 以 使 用 C-a s 来 强制 写 回 。 
rm megs" 
设置 虚拟 内 存 为 msg MB, 默 认为 128MB。 
“smp n' 
设置 为 有 nn 个 CPU 的 SMP 系统 。 以 PC 为 目标 机 ,最 多 支持 255 个 CPU. 
“nographic' 
禁止 使 用 图 形 输出 。 
其 他 : 
可 用 的 主机 设备 dev 例如 : 


VC 


虚拟 终端 。 
null 
« Oh « 


空 设备 。 
/dev/XXX 
使 用 主机 的 tty. 
file: filename 
将 输出 写 入 到 文件 filename 中 。 
stdio 
标准 输入 输出 。 
pipe: pipename 


命令 管道 pipename。 


使 用 dev 设备 的 命令 如 下 : 
“serial dev' 
重 定向 虚拟 串口 到 主机 设备 dev 中 。 
“parallel dev" 
重 定向 虚拟 并 口 到 主机 设备 dev 中 。 
-monitor dev' 
重 定向 monitor 到 主机 设备 dev 中 。 
其 他 参数 : 
等 待 gdb 连接 到 端口 1234。 
'-p port" 
改变 gdb 连接 端口 到 port。 
-SS 
在 启动 时 不 启动 CPU ,需要 在 monitor 中 输入 'c', 才 能 让 qemu 继续 模拟 工作 。 
“ds 
输出 日 志 到 qemu. log 文件 。 
其 他 参数 说 明 可 以 参考 网 址 http://bellard. org/qemu/qemu-doc. html # SEC15 。 其 


他 qemu 的 安装 和 使 用 的 说 明 可 以 参考 网 址 http://bellard. org/qemu/user-doc, html, 


或 者 在 命令 行 输入 qdemu( 没 有 参数 ) 显 示 帮 助 。 

在 实验 中 ,例如 labl ,可 能 用 到 的 命令 如 下 : 

chy@ chyhome FC: ~$cd ~ /ucore_lab/code/labl 

hy@ chyhame- FC: ~ /ucore_lab/code/lab1$ make 

chy@ chyhame- EC: ~ /ucore_lab/code/labl$ cd bin 

chy@ chyhane- PC: ~ /ucore_lab/code/labl /bin$ gam - hda ucore. img - parallel stdio // 让 ucore 在 
cpm BELAY x86 硬 件 环 境 中 执行 


œu- S- s- hda ucore.img- monitor stdio // 用 于 与 gdb Be HEAT RS ik 
2) 常用 调试 命令 
执行 “qemu-hda acore. img-monitor stdio” 可 在 命令 行 方式 下 进入 qemu 的 monitor F 


模块 对 ucore 操作 系统 进行 监控 。 
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qemu 中 monitor 的 常用 命令 如 表 1-3 所 示 。 
表 1-3 monitor 的 常用 命令 


help 查看 qemnu 帮助 ,显示 所 有 支持 的 命令 

qd| quit| exit 退出 qemu 

stop 停止 qemu 

c| cont] continue 连续 执行 

x/fmt addr 显示 内 存 内 容 , 其 中 x 为 虚 地 址 ,xp 为 实地 址 ; 
xp/fmt addr 参数 /fmt i 表示 反 汇 编 ,默认 参数 为 前 一 次 参数 
p| print 计算 表达 式 值 并 显示 ,例如 , $ reg 表示 寄存 器 结果 


memsave addr size file 


将 内 存 保存 到 文件 ,memsave 为 虚 地 址 ,pmemsave 为 实地 址 
设置 ,查看 以 及 删除 breakpoint, PC 执行 到 breakpoint, qemu 停止 ( 暂 


pmemsave addr size file 


breakpoint 相关 


时 没有 此 功能 ) 
tchpoint 相关 设置 .查看 以 及 删除 watchpoint. “4 watchpoint 地 址 内 容 被 修改 ,停止 
Wiis (暂时 没有 此 功能 ) 
s| step 单 步 一 条 指令 ,能 够 跳 过 断 点 执行 
r| registers 显示 全 部 寄存 器 内 容 
info 相关 操作 查询 qemu 支持 的 关于 系统 状态 信息 的 操作 


其 他 具体 的 命令 格式 以 及 说 明 ,参见 qemu help 命令 帮助 。 

注意 ; qemu 默认 有 singlestep arg 命令 (arg 为 参数 ) ,该 命令 为 设置 单 步 标志 命令 。 例 
如 ,singlestep off 运行 结果 为 禁止 单 步 ,singlestep on 结果 为 允许 单 步 。 在 允许 单 步 的 条 件 
下 ,使 用 cont 命令 进行 单 步 操作 。 例 如 : 


(em) xp /3i$ pe 
Oxfffffff0: 1jmp $ Oxf000,$ Oxe05b 
Oxfffffff5: xor %bh, (bx, %si) 
Oxfffffff7: das 
(œm) singlestep on 
(qemu) cont 

Ox000fe05b: xor % ax, $ ax 


step 命令 为 单 步 命令 , 即 qemu 执行 一 步 , 能 够 跳 过 breakpoint 执行 。 如 果 此 时 使 用 
cont 命令 , 则 qemu 运行 改 为 连续 执行 。 

log 命令 能 够 保存 qemu 模拟 过 程 产生 的 信息 (与 qemu 运行 参数 -d 相同 ) ,具体 参数 可 
以 参考 命令 帮助 。 产 生 的 日 志 信 息 保存 在 /tmp/qemu. log 中 ,例如 ,使 用 log in_asm 命令 
以 后 ,运行 过 程 产生 的 qemu. log 文件 如 下 : 


2 IN: 


8 Ox000fe05d: out %al,$Oxd 
9 Ox000fe05f: out %al,$ Oxda 
10 Ox000fe061: mov $ Oxc0,%al 
11 0x000fe063: cut %al,$ Oxd6é 
12 0x000fe065: mov $ 0x0,%al 

13 Ox000fe067: out %al,$ Oxd4 


3. BF qemu 内 建 模式 调试 ucore 

调试 举例 : 调试 labl ,跟踪 bootmain PAA. 

(1) 运行 qemu-S-hdaucore. img-monitor stdio。 

(2) 查看 bootblock. asm 得 到 bootmain 函数 地 址 为 0x7d60 ,并 插入 断 点 。 
(3) 使 用 命令 c 连续 执行 到 断 点 。 

(4) 使 用 xp 命令 进行 反 汇编 。 

(5) 使 用 s 命令 进行 单 步 执行 。 


运行 结果 如 下 : 

chy@ chyhame- PC: ~ /ucorelab/code/labl$ qm- S- hda ucore.img- monitor stdio 

(cEm)b 0x7d60 

insert breakpoint 0x7d60 success! 

(qem)c 

(œw) 
break: 

Ox00007d60: push %ebp 

(gem) xp /10i$ pc 
000007460: push exp 
0x00007d61: mov %esp,% ebp 
0x00007d63: push %esi 
0x00007d64: push Sex 
0x00007d65: sub $ 0x4,% esp 
0x00007d68: mov Ox7da8, $ esi 
0x00007dée: mov $ 0x0,% ebx 
000007473: movsbl (%esi,%ebx,1),% eax 
0x00007d77: mov % eax, (% esp, 1) 
0x00007d7a: call Ox7c6éc 

(gam) step 

0x00007d61: mov % esp, dp 
(gem) step 


0x00007d63: push Sesi 


4. 结合 gdb 和 qemu 源码 级 调试 ucore 

1) 编译 可 调试 的 目标 文件 

为 了 使 编译 出 来 的 代码 能 够 被 gdb 调试 ,需要 在 使 用 gee 编译 源 文件 的 时 候 添 加 参数 ， 
-g-gdb 。 这 样 编译 出 来 的 目标 文件 中 才 会 包含 可 以 用 于 调试 器 进行 调试 的 相关 符号 信息 。 

2) ucore 代码 编译 

(1) 编译 过 程 : 在 解压 缩 后 的 ucore 源码 包 中 使 用 make 命令 即 可 。 例 如 ,labl 中 : 


chy@ chyhame- PC: ~ /ucore_lab/code/labl$ make 


则 会 在 labl 目录 下 的 bin 目录 中 生成 的 目标 文件 为 ucore. img. 

(2) 保存 修改 : 使 用 diff 命令 对 修改 后 的 ucore 代码 和 ucore 源码 进行 比较 ,比较 之 前 
建议 使 用 make clean 命令 清除 不 必要 文件 (如 果 有 ctags 文件 ,需要 手工 清除 ) 。 

(3) 应 用 修改 : 参见 patch 命令 说 明 。 

3) 使 用 远程 调试 

为 了 与 qemu 配合 进行 源 代 码 级 别 的 调试 ,需要 先 让 qemu 进入 等 待 gdb 调试 器 的 接 人 
并 且 还 不 能 让 qemu 中 的 CPU 执行 ,因此 启动 qemu 的 时 候 , 需 要 使 用 参数 “-S” 和 “-s” 这 两 
个 参数 来 做 到 这 一 点 。 在 使 用 了 前 面 提 到 的 参数 启动 qemu 之 后 ,qemu 中 的 CPU 并 不 会 
马上 开始 执行 ,这 时 启动 gdb, 然 后 在 edb 命令 行 界面 下 ,使 用 下 面 的 命令 连接 到 qemu: 


(gdb) target remote 127.0.0.1:1234 


然后 输入 c( 也 就 是 continue) fit 4 Za qemu 会 继续 执行 下 去 ,但 是 由 于 gdb 不 知道 任 
何 符号 信息 ,并 且 也 没有 设 下 断 点 ,是 不 能 进行 源码 级 的 调试 的 。 为 了 让 edb 获知 符号 信 
息 ,需要 指定 调试 目标 文件 ,可 在 gdb 中 使 用 file 命令 : 

(gb) file cbj/kernel/kerel.elf 
之 后 gdb 就 会 载 人 这 个 文件 中 的 符号 信息 了 。 

通过 gdb 可 以 对 ucore 代码 进行 调试 ,下 面 以 labl 中 调试 memset 函数 为 例 。 

(1) 运行 qemu -S -s -hda ucore. img-monitor stdio。 

(2) 运行 gdb 并 与 qemu 进行 连接 。 

(3) 设置 断 点 并 执行 。 

(4) qemu 单 步调 试 。 


运行 过 程 以 及 结果 如 下 : 
= 窗口 二 
chy@ chyhare- FC: ~ /ucore_lab/code/lab1$ q- S - hoa chy@ chyhore - FC: ~ /ucore _ lab/code/labl $gb ./ 
./bin/ucore.img - s - 


bin/kemel 

(gdb) target remote:1234 

Remote debugging using :1234 

Ox0000£££0 in ?? () 

(gb) file dbj/kemel/kemel.elf 

(gdb) break manset 

Breakpoint 1 at 0xl00d9f: file libs/string.c, line 54. 
(gdb) run 

Starting program: /hame/chenyu/oscourse/develop/ucore/ 
labl/bin/kemel 


Breakpoint 1,mamset (s= 0x1020fc,c= 0 '\000",n= 12) at libs/ 
string.c:54 

54 retum memset (s, c, n); 

(gdb) 


。28 。 


4) 使 用 gdb 配置 文件 

前 面 讲 到 ,为 了 进行 源码 级 调试 ,需要 输入 较 多 的 东西 ,这 样 很 麻烦 。 为 了 方便 ,可 以 将 
这 些 命令 存在 脚本 中 ,并 让 gdb 在 启动 的 时 候 自 动 载 人 。 

可 以 创建 文件 gdbinit ,并 输入 下 面 的 内 容 : 


tanget remote 127.0.0.1:1234 
file obj/kemel/kemel .elf 


为 了 让 gdb 在 启动 时 执行 这 些 命令 ,使 用 下 面 的 命令 启动 gdb: 
chy@ chyhame- PC: ~ /ucore lab/code/labl$ gdb -x gdbinit 
如 果 觉 得 这 个 命令 太 长 ， 可 以 将 这 个 命令 存 人 一 个 文件 中 ， 作为 脚本 来 执行 。 


另外 ,如 果 直 接 使 用 上 面 的 命令 ,那么 得 到 的 界面 是 一 个 纯 命 令 行 的 界面 ,不 够 直观 ,如 
图 1-2 所 示 。 


图 1-2 命令 行 界面 


如 果 想 获得 图 1-3 那样 的 效果 ,只 需要 再 加 上 参数 -tui 就 行 了 ,例如 : 
chy@ chyhame- PC: ~ $ gb- tui - x gdbinit 
5) 加 载 调试 目标 
如 前 所 述 ,为 了 能 够 让 edb 识别 变量 的 符号 ,必须 给 edb 载 人 符号 表 等 信息 。 在 进行 
gdb 本 地 应 用 程序 调试 的 时 候 . 由 于 在 指定 了 执行 文件 时 就 已 经 加 载 了 文件 中 包含 的 调试 
信息 ,因此 不 用 再 使 用 gdb 命令 专门 加 载 了 。 但 是 在 使 用 qemu 进行 远程 调试 的 时 候 , 必 须 
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ucore — arm-eabi-gdb — 93x51 


emulator-arm 


___arm-eabi-gdb 


手动 加 载 符号 表 , 也 就 是 在 gdb 中 使 用 file 命令 。 

这 样 加 载 调试 信息 都 是 按照 ELF 文件 中 制订 的 虚拟 地 址 进行 加 载 的 ,这 在 静态 链接 的 
代码 中 没有 任何 问题 。 但 是 :在 调试 含有 动态 链接 库 的 代码 时 ,动态 链接 库 的 ELF 执行 文件 
头 中 指定 的 加 载 虚 拟 地 址 都 是 0, 这 个 地 址 实际 上 是 不 正确 的 。 从 操作 系统 的 角度 来 看 ,用 
户 态 的 动态 链接 库 的 加 载 地 址 都 是 由 操作 系统 动态 分 配 的 ,没有 一 个 固定 值 。 然 后 操作 系 
统 再 把 动态 链接 库 加 载 到 这 个 地 址 ,并 由 用 户 ; 1 态 SME 链接 器 (Linker) 把 动态 链接 库 中 的 地 
址 信息 重新 设置 , 自 此 动态 链接 库 才 可 正常 运 

和 
接 的 代码 进行 调试 的 时 候 , 需 要 手动 要 求 gdb 将 调试 信息 加 载 到 指定 地 址 。 

下 面 ,我们 要 求 gdb 将 linker 加 载 到 0x6fee6180 这 个 地 址 上 : 


(gdb) add- syrbol- file test/system/bin/linker 0x6fee6180 
样 的 命令 默认 是 将 代码 段 (. data) 的 调试 信息 加 载 到 Ox6fee6180 上 ,当然 ,也 可 以 通过 -s 
个 参数 来 指定 Æ s 例如 : 


这 

这 舍 
(gdb) add- symbol- file test/system/bin/linker -s .text 0x6fee6180 

这 样 ,在 执行 到 linker 中 的 代码 时 gdb 就 能 够 显示 出 正确 的 代码 和 调试 信息 出 来 。 这 个 方 


法 在 操作 系统 中 调试 动态 链接 器 时 特别 有 用 。 
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6) 设 定 调试 目标 架构 
在 调试 的 时 候 , 有 时 也 许 需 要 调试 不 是 i386 保护 模式 的 代码 ,比如 8086 实 模式 的 代 
码 , 这 时 需要 设 定 当 前 使 用 的 架构 : 


(gdb) set arch i8086 
这 个 方法 在 调试 不 同 架 构 或 者 说 不 同 模式 的 代码 时 还 是 有 点 用 处 的 。 
1.2.5 了 解 处 理 器 硬件 


要 想 深 入 理解 ucore ,就 需要 了 解 支撑 ucore 运行 的 硬件 环境 , 即 了 解 处 理 器 体系 结构 
(了 解 硬件 对 ucore 带 来 影响 ) 和 机 器 指令 集 ( 读 懂 ucore 的 汇编 )。ucore 目前 支持 的 硬件 
环境 是 基于 Intel 80386 以 上 的 计算 机 系统 。 更 多 的 硬件 相关 内 容 ( 比 如 保护 模式 等 ) 将 随 
着 实现 ucore 的 过 程 逐渐 展开 介绍 。 

1. Intel 80386 运行 模式 

80386 有 四 种 运行 模式 : 实 模式 、 保 护 模 式 、SMM 模式 和 虚拟 8086 模式 ,这 里 仅 对 涉 
及 ucore 的 实 模式 和 保护 模式 做 一 个 简要 介绍 。 

实 模式 : 80386 加 电 启 动 后 处 于 实 模式 运行 状态 ,在 这 种 状态 下 软件 可 访问 的 物理 内 
存 空间 不 能 超过 1MB, 且 无 法 发 挥 Intel 80386 以 上 级 别 的 32 位 CPU 的 4GB 内 存 管理 能 
力 。 实 模式 将 整个 物理 内 存 看 成 分 段 的 区 域 ,程序 代码 和 数据 位 于 不 同 区 域 ,操作 系统 和 用 
户 程序 并 没有 区 别 对 待 , 而 且 每 一 个 指针 都 是 指向 实际 的 物理 地 址 。 这 样 用 户 程 序 的 一 个 
指针 如 果 指 向 了 操作 系统 区 域 或 其 他 用 户 程 序 区 域 ,并 修改 了 内 容 , 那 么 其 后 果 就 很 可 能 是 
灾难 性 的 。 

实 模式 是 为 了 和 8086 处 理 器 兼容 而 设置 的 。 在 实 模式 下 ,80386 处 理 器 就 相当 于 一 个 
快速 的 8086 处 理 器 。80386 处 理 器 被 复位 或 加 电 的 时 候 以 实 模式 启动 。 这 时 候 处 理 器 中 
的 各 寄存 器 以 实 模式 的 初始 化 值 工作 。80386 处 理 器 在 实 模式 下 的 存储 器 寻 址 方式 和 8086 
是 一 样 的 ,由 段 寄 存 器 的 内 容 乘 以 16 当做 基地 址 ,加 上 段 内 的 偏 移 地 址 形成 最 终 的 物理 地 
址 ,这 时 候 它 的 32 位 地 址 线 只 使 用 了 低 20 位 , 即 可 访问 1MB 的 物理 地 址 空间 。 在 实 模式 
下 ,80386 处 理 器 不 能 对 内 存 进行 页 机 制 管理 ,所 以 指令 寻 址 的 地 址 就 是 内 存 中 实际 的 物理 
地 址 。 在 实 模式 下 ,所 有 的 段 都 是 可 以 读 、 写 和 执行 的 。 实 模式 下 80386 不 支持 优先 级 ,所 
有 的 指令 相当 于 工作 在 特权 级 ( 即 优先 级 0) ,所 以 它 可 以 执行 所 有 特权 指令 ,包括 读 写 控制 
寄存 器 CRO 等 。 实 模式 下 不 支持 硬件 上 的 多 任务 切换 。 实 模式 下 的 中 断 处 理 方式 和 8086 
处 理 器 相同 ,也 用 中 断 向 量 表 来 定位 中 断 服务 程序 地 址 。 中 断 向 量 表 的 结构 也 和 8086 处 理 
器 一 样 , 每 4B 组 成 一 个 中 断 向 量 , 其 中 包括 2B 的 段 地 址 和 2B 的 偏 移 地 址 。 

保护 模式 : 实际 上 ,80386 就 是 通过 在 实 模式 下 初始 化 控制 寄存 器 .GDTR 、LDTR、 
IDTR 与 TR 等 管理 寄存 器 以 及 页 表 , 然 后 再 通过 加 载 CR0 使 其 中 的 保护 模式 使 能 位 置 位 
而 进入 保护 模式 的 。 当 80386 工作 在 保护 模式 下 时 ,其 所 有 的 32 根 地 址 线 都 可 供 寻 址 , 物 
理 寻 址 空间 高 达 4GB。 在 保护 模式 下 ,支持 内 存 分 页 机 制 ,提供 了 对 虚拟 内 存 的 良好 支持 。 
保护 模式 下 80386 支持 多 任务 ,还 支持 优先 级 机 制 ,不 同 的 程序 可 以 运行 在 不 同 的 优先 级 
上 。 优 先 级 一 共 分 0~3 级 , 共 4 级 ,操作 系统 运行 在 最 高 的 优先 级 0 上 ,应 用 程序 则 运行 在 
比较 低 的 级 别 上 ;配合 良好 的 检查 机 制 后 , 既 可 以 在 任务 间 实 现 数据 的 安全 共享 也 可 以 很 好 
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地 隔离 各 个 任务 。 

2. Intel 80386 内 存 架 构 

80386 是 32 位 的 处 理 器 , 即 可 以 寻 址 的 物理 内 存 地 址 空间 为 到 一 4GB。 在 理解 操作 系 
统 的 过 程 中 ,需要 用 到 三 个 地 址 空间 的 概念 。 地 址 是 访问 地 址 空间 的 索引 。 物 理 内 存 地 址 
空间 是 处 理 器 提交 到 总 线 上 用 于 访问 计算 机 系统 中 的 内 存 和 外 设 的 最 终 地 址 。 一 个 计算 机 
系统 中 只 有 一 个 物理 地 址 空间 。 线 性 地 址 空间 是 每 个 运行 的 应 用 程序 看 到 的 地 址 空间 ,在 
操作 系统 的 虚 存 管理 之 下 ,每 个 运行 的 应 用 程序 都 认为 自己 独 享 整个 计算 机 系统 的 地 址 空 
间 , 这 样 可 让 多 个 运行 的 应 用 程序 之 间 相互 隔离 。 处 理 器 负责 把 线性 地 址 转换 成 物理 地 址 。 

一 个 计算 机 系统 中 可 以 有 多 个 线性 地 址 空间 (比如 一 个 运行 的 程序 就 可 以 有 一 个 私有 的 线 
性 地 址 空间 ) 。 线 性 地 址 空间 的 大 小 与 物理 地 址 空间 的 大 小 没有 必然 的 连续 。 逻 辑 地 址 空 
间 是 应 用 程序 直接 使 用 的 地 址 空间 。 这 是 由 于 80386 中 无 法 禁用 段 机 制 ,使 得 逻辑 地 址 一 
直 存 在 。 例 如 ,如 下 C 代码 片段 : 


int boo= 1; 


int * foo= &a; 


这 里 的 boo 是 一 个 整 型 变量 ,foo 变量 是 一 个 指向 boo 地 址 的 整 型 指针 变量 ,foo 中 储 
存 的 内 容 就 是 boo 的 逻辑 地 址 。 逻 辑 地 址 由 一 个 16 位 的 段 寄 存 器 和 一 个 32 位 的 偏 移 量 构 
wh foo he 32 位 的 偏 移 量 ,而 对 应 的 段 信息 位 于 段 寄 存 器 中 。 

述 三 种 地 址 的 关系 如 下 。 

qd) TIRANES FAROS, 逻辑 地 址 ~> 段 机 制 处 理 一 线性 地 址 = 物理 地 址 。 

C2) 分 段 机制 和 分 页 机 制 都 启动 : 逻辑 地 址 ~ 段 机 制 处 理 一 线性 地 址 一 页 机 制 处理 一 
物理 地 址 。 

3. Intel 80386 寄存 器 

80386 的 寄存 器 可 以 分 为 8 组 : 通用 寄存 器 、 段 寄存 器 .指令 指针 寄存 器 .标志 寄存 器 、 
系统 地 址 寄存 器 .控制 寄存 器 .调试 寄存 器 .测试 寄存 器 ， papa 32 位 。 一 般 程序 
员 看 到 的 寄存 器 包括 通用 寄存 器 、 段 寄存 器 、 指 令 指 针 寄存 器 ,标志 寄存 器 。 

General Register( 通 用 寄存 器 ): EAX/EBX/ECX/EDX/ESI/EDI/ESP/EBP 这 些 寄存 
器 的 低 16 位 就 是 8086 的 AX/BX/CX/DX/SI/DI/SP/BP, 对 于 AX,BX,CX,DX 这 4 个 寄 
存 器 来 讲 , 可 以 单独 存 取 它 们 的 高 8 位 和 低 8 CAH, AL,BH,BL,CH,CL,DH, DL), È 
们 的 含义 如 下 : 

EAX: 累加 器 。 

EBX: 基 址 寄存 器 。 

ECX: 计数 器 。 

EDX: 数据 寄存 器 。 

ESI: 源 地 址 指针 寄存 器 。 

DI: 目的 地 址 指针 寄存 器 。 

ESP, 堆栈 指针 寄存 器 。 

EBP: 基 址 指针 寄存 器 。 

通用 寄存 器 如 下 所 示 。 
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Segment Register( 段 寄存 器 ,也 称 Segment Selector. Beit FEIT , 段 选择 子 ): 除了 8086 
的 4 个 段 外 (CS、DS、ES、SS) ,80386 还 增加 了 两 个 段 (FS.GS) ,这 些 段 寄存 器 都 是 16 位 的 ， 
它们 的 含义 如 下 。 

CS; 代码 段 (Code Segment), 

DS: 数据 段 (Data Segment) 。 

ES: 附加 段 (Extra Segment). 

SS: 堆栈 段 (Stack Segment). 

FS: 标志 段 。 

GS: 全 局 段 。 

段 寄 存 器 如 下 所 示 。 
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CS <Code Segment> 


+ 
SS <Stack Segment> 


+ 
DS <Data Segment> 


ES <Extra Segment> 


FS <Flag Segment> 
+ 


GS <Gloal Segment> 


Instruction Pointer( 指 令 指 针 寄 存 器 ): EIP 的 低 16 位 就 是 8086 的 IP, 它 存储 的 是 下 
一 条 要 执行 指令 的 内 存 地址 ,在 分 段 地 址 转换 中 ,表示 指令 的 段 内 偏 移 地 址 。 
状态 寄存 器 和 指令 寄存 器 如 下 所 示 。 


31 23 15 7 0 
+ 


+ 
Eflags 
+ + 
EIP <Instruction Pointer> 


Flag Register( 标 志 寄 存 器 ) : EFLAGS 和 8086 的 16 位 标志 寄存 器 相 比 ,增加 了 4 个 
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控制 位 ,这 20 位 控制 /标志 位 的 位 置 如 图 1-4 所 示 。 


状态 寄存 器 16-bit flags Register 
A 
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Virtual 8086 Mode x 一 -一 
Resume Flag — X 


Nested Task Flag 
T/O Privilege Level 
Overflow Flag 
Direction Flag 
Interrupt Enable Flag 
Trap Flag 

Sign Flag 


Zero Flag 

Auxiliary Carry Flag 
Parity Flag 

Carry Flag 
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S=Status Flag, C=Control Flag, X=System Flag 
0 或 1 表示 由 Interl 保 留 ， 不 要 使 用 


图 1-4 各 种 标志 位 


相关 的 控制 /标志 位 含义 如 下 。 

CF(Carry Flag): 进位 标志 位 。 

PF(Parity Flag): 奇偶 标志 位 。 

AF(Auxiliary Carry Flag): 辅助 进位 标志 位 。 

ZF (Zero Flag): 零 标志 位 

SF(Sign Flag): 符号 标志 位 。 

IF(Interrupt Enable Flag): 中 断 允许 标志 位 ,由 CLI STI 两 条 指令 来 控制 ;设置 IF 使 
CPU 可 识别 外 部 (可 屏蔽 ) 中 断 请 求 。 复 位 IF 则 禁止 中 断 。IF 对 不 可 屏蔽 外 部 中 断 和 故障 
中 断 的 识别 没有 任何 作用 。 

DF (Direction Flag) ; 向 量 标志 位 ,由 CLD、STD 两 条 指令 来 控制 。 

OF (Overflow Flag): 溢出 标志 位 。 

IOPL(//O Privilege Level); 1/0 特权 级 字段 , 它 的 宽度 为 2 位 , 它 指定 了 1/O 指令 的 
特权 级 。 如 果 当 前 的 特权 级 别 在 数值 上 小 于 或 等 于 IOPL, 那 么 I/O 指令 可 执行 。 否 则 ,将 
发 生 一 个 保护 性 故障 中 断 。 

NT(Nested Task Flag): 控制 中 断 返 回 指令 IRET, 它 宽度 为 1 位。 车 NT=0, 则 用 堆 
栈 中 保存 的 值 恢复 Eflags、CS 和 EIP 从 而 实现 中 断 返回 ; 若 NT=1, 则 通过 任务 切换 实现 
中 断 返 回 。 


1.2.6 了 解 ucore 编程 方法 和 通用 数据 结构 


1. 面向 对 象 编程 方法 
在 ucore 设计 中 采用 了 一 些 面向 对 象 编程 方法 。 虽 然 C 语言 对 面向 对 象 编程 并 没有 原 
生 支 持 ,但 没有 原生 支持 并 不 等 于 不 能 用 C 语言 写 面向 对 象 程序 。 需 要 注意 ,我 们 并 不 需 
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要 用 C 语言 模拟 出 一 个 常见 C++ 编译 器 已 经 实现 的 对 象 模型 。 如 果 是 那样 ,还 不 如 直接 
采用 C++ 编程 。 

ucore 的 面向 对 象 编程 方法 ,目前 主要 是 采用 了 类 似 C++ 的 接口 (Interface) 概 念 , 即 让 
实现 细节 不 同 的 某 类 内 核子 系统 (比如 物理 内 存 分 配器 .调度 器 文件 系统 等 ) 有 共同 的 操作 
方式 ,这 样 虽然 内 存 子 系统 的 实现 千差万别 ,但 它 的 访问 接口 是 不 变 的 。 这 样 不 同 的 内 核子 
系统 之 间 就 可 以 灵活 地 组 合 在 一 起 ,实现 风格 各 异 、 功 能 不 同 的 操作 系统 。 接 口 在 
C 语言 中 ,表现 为 一 组 函数 指针 的 集合 。 放 在 C++ 中 , 即 为 虚 表 。 接 口 设计 的 难点 是 ,如 
果 找 出 各 种 内 核子 系统 的 共性 访问 /操作 模式 ,从 而 可 以 根据 访问 模式 提取 出 函数 指针 
列表 。 

例如 ,对 于 ucore 内 核 中 的 物理 内 存 管理 子 系统 ,首先 通过 分 析 内 核 中 其 他 子 系统 可 能 
的 物理 内 存 管理 子 系统 ,明确 物理 内 存 管理 子 系统 的 访问 /操作 模式 ,然后 定义 pmm_ 
manager 数据 结构 (位 于 lab2/kern/mm/pmm. h) dF : 


//pm manager is a physical memory management class. A special pm manager- XXX pm manager 
//only needs to implement the methods in pm manager class, then XX pm manager can be used 
//by ucore to manage the total physical memory space. 
struct pm manager { 
//XXX_ pm manager's name 
const char * name; 
//initialize intemal descriptionémanagement data structure 
// (free block list, number of free block)of XXX prm manager 
void(* init) (void); 
//setup descriptionémanagerent data structcure according to 
//the initial free physical memory space 
void(* init mermap) (struct Page * base, size tn); 
//allocate>=n pages, depend on the allocation algorithn 
struct Page* (* alloc pages) (size t n); 
//free> =n pages with"base"addr of Page descriptor structures (memlayout .h) 
void (* free pages) (struct Page* base, size tn); 
//retum the number of free pages 
size t (* nr free pages) (void); 
//check the correctness of XXX pm manager 
void(* check) (void); 
F 
基于 此 数据 结构 ,我们 可 以 实现 不 同 连续 内 存 分 配 算法 的 物理 内 存 管理 子 系统 ,而 这 些 
物理 内 存 管理 子 系统 需要 编写 算法 ,把 算法 实现 在 此 结构 中 定义 的 init (初始化 )、init_ 
memmap( 分 析 空 闲 物 理 内 存 并 初始 化 管理 ) 、alloc_pages (分配 物 理 页 ) .free_pages( 释 放 物 
理 页 ) 函 数 指针 所 对 应 的 函数 中 。 而 其 他 内 存 子 系统 需要 与 物理 内 存 管理 子 系统 交互 时 ,只 
需 调用 特定 物理 内 存 管理 子 系统 所 采用 的 pmm_manager 数据 结构 变量 中 的 函数 指针 
即 可 。 
2. 通用 数据 结构 
双向 循环 链表 
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在 “数据 结构 ?课程 中 ,如 果 创 建 某 种 数据 结构 的 双 循环 链表 ,通常 采用 的 方法 是 在 这 个 
数据 结构 的 类 型 定义 中 有 专门 的 成 员 变量 data, 并 且 加 入 两 个 指向 该 类 型 的 指针 next 和 
prev。 例 如 : 


typedef struct foo { 
Elentrype data; 
struct foo* prev; 
struct foo* next; 
} foo t; 


双向 循环 链表 的 特点 是 尾 节点 的 后 继 指向 首 节 点 , 且 从 任意 一 个 节点 出 发 , 沿 两 个 方向 
的 任何 一 个 ,都 能 找到 链表 中 的 任意 一 个 节点 的 data 数据 。 由 双向 循环 列表 形成 的 数据 链 
如 图 1-5 所 示 。 


图 1-5 双向 循环 链表 


这 种 双向 循环 链表 数据 结构 的 一 个 潜在 问题 是 ,虽然 链表 的 基本 操作 是 一 致 的 ,但 由 于 
每 种 特定 数据 结构 的 类 型 不 一 致 ,需要 为 每 种 特定 数据 结构 类 型 定义 针对 这 个 数据 结构 的 
特定 链表 插入 .删除 等 各 种 操作 ,这 样 会 导致 代码 元 余 。 

在 ucore 内 核 ( 从 lab2 开始 ) 中 使 用 了 大 量 的 双向 循环 链表 结构 来 组 织 数据 ,包括 空闲 
内 存 块 列表 、 内 存 页 链表 、 进 程 列表 设备 链表 ,文件 系统 列表 等 的 数据 组 织 ( 在 libs/list. h 
实现 ) ,但 其 具体 实现 借鉴 了 Linux 内 核 的 双向 循环 链表 实现 ,与 “数据 结构 ? 课 中 的 链表 数 
据 结构 不 太一 样 。 下 面 介 绍 这 一 数据 结构 的 设计 与 操作 函数 。 

ucore 的 双向 链表 结构 定义 如 下 : 

struct List entry { 

struct list entry* prev, * next; 

p 

需要 注意 ,ucore 内 核 的 链表 节点 list_entry 没有 包含 传统 的 data 数据 域 , 而 是 在 具体 
的 数据 结构 中 包含 链表 节点 。 以 lab2 中 的 空闲 内 存 块 列 表 为 例 , 空 闲 块 链表 的 头 指针 定义 
(位 于 lab2/kern/mm/memlayout. h 中 ) 如 下 : 

/* free area t- 

eines a doubly tired ise to read eee (unused) pages * / 


typedef struct { 

list entry t free list; //the list header 

unsigned int nr free; //matber of free pages in this free list 
} free area t; 
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而 每 一 个 空闲 块 链表 节点 定义 (位 于 lab2/kern/mm/memlayout) 4 F : 


[ee 
* struct Page- Page descriptor structures. Each Page describes one 


* physical page. In kem/mm/pm.h, you can find lots of useful functions 
* that convert Page to other data types, such as phyical address. 
**/ 
struct Page { 


atic t ref; //page frame s reference counter 


TER Page link; //fræ list link 
F 
这 样 以 free_area_t 结构 的 数据 为 双向 循环 链表 的 链表 头 指针 ,以 Page 结构 的 数据 为 
双向 循环 链表 的 链表 节点 ,就 可 以 形成 一 个 完整 的 双向 循环 链表 ,如 图 1-6 所 示 。 


free_area_t 


图 1-6 空闲 块 双向 循环 链表 


从 图 1-6 中 可 以 看 到 ,这 种 通用 的 双向 循环 链表 结构 有 个 优点 , 它 避 免 了 为 每 个 特定 数 
据 结构 类 型 定义 针对 这 个 数据 结构 的 特定 链表 的 麻烦 ,而 可 以 让 所 有 的 特定 数据 结构 共享 
通用 的 链表 操作 函数 。 在 实现 对 空闲 块 链表 的 管理 过 程 (参见 lab2/kern/mm/default_ 
pmm. c) 中 ,就 大 量 使 用 了 通用 的 链表 插入 链表 删除 等 操作 函数 。 有 关 这 些 链 表 操 作 函 数 


的 定义 如 下 。 
(1) 初始 化 。 
ucore 只 定义 了 链表 节点 ,并 没有 专门 定义 链表 头 ,那么 一 个 双向 循环 链表 是 如 何 建 立 


起 来 的 呢 ? 让 我 们 来 看 看 list_init 这 个 内 联 函 数 (Inline Funciton) : 
list init(list entry tx elm) { 
elm > prev elm > next= elm; 


参见 文件 default_pmm. c 的 函数 default_init, 当 调用 list_init( & (free_area. free_list) ) 
时 ,就 声明 一 个 名 为 free_area. free_list 的 链表 头 , 它 的 next, prev 指针 都 初始 化 为 指向 自 
己 ,这样 ,我 们 就 有 了 一 个 表示 空闲 内 存 块 链 的 空 链表 ,而 且 可 以 用 头 指针 的 next 是 否 指向 
自己 来 判断 此 链表 是 否 为 空 ,这 就 是 内 联 函 数 list_empty 的 实现 。 

(2) HA. 

对 链表 的 插入 有 两 种 操作 , 即 在 表 头 插入 (list_add_after) 或 在 表 尾 插入 (list_add_ 
before)。 因 为 双向 循环 链表 的 链表 头 的 next. prev 分 别 指向 链表 中 的 第 一 个 和 最 后 一 个 节 
点 ,所 以 ,list_add_after 和 list_add_before 的 实现 区 别 并 不 大 ,实际 上 ucore 分 别 用 __list_ 
add(elm, listelm, listelm 一 之 next) 和 __list_add(elm, listelm—> prev, listelm) 来 实现 在 
表 头 插入 和 在 表 尾 插入 。__list_add 的 实现 如 下 : 


__ list add(list entry tx elm,list entry tx prev,list entry t* next){ 
prev- > next= next- > prev= elm; 
elm > next= next; 
elm > prev= prev; 

} 


从 上 述 实现 可 以 看 出 ,在 表 头 插入 是 插入 listelm 之 后 , 即 持 在 链表 的 前 端 ;而 在 表 尾 插 
人 是 插入 listelm—> prev 之 后 , 即 插 在 链表 的 最 后 。 

TE: list_add 等 于 list_add_after。 

(3) 删除 。 

当 需 要 删除 空闲 块 链表 中 的 Page 结构 的 链表 节点 时 ,可 调用 内 联 函 数 list_del, 而 list_ 
del 进一步 调用 了 __list_del 来 完成 具体 的 删除 操作 。 其 实现 如 下 : 


static inline void 
list cel (list entry tx listelm) { 
_ list œl (listelm- > prev, listelm- > next); 
} 
__list del(list entry tx prev, list entry tx next) { 
prev- > next= next; 
next- > prev= prev; 
} 
如 果 要 确保 被 删除 的 节点 listelm 不 再 指向 链表 中 的 其 他 节点 ,这 可 以 通过 调用 list_ 
init 函数 来 让 listelm 的 prev next 指针 分 别 指向 自身 ,即将 节点 置 为 空 链 状 态 。 这 可 以 通 
过 list_del_init 函数 来 完成 。 
(4) 访问 链表 节点 所 在 的 宿主 数据 结构 。 
通过 上 面 的 描述 可 知 ,list_entry_t 通用 双向 循环 链表 中 仅 保 存 了 某 特定 数据 结构 中 链 
表 节 点 成 员 变量 的 地 址 ,那么 如 何 通过 这 个 链表 节点 成 员 变 量 访问 它 的 所 有 者 ( 即 某 特定 数 
据 结 构 的 变量 ) 呢 ? Linux 为 此 提供 了 针对 数据 结构 XXX 的 le2XXX(le, member) WH ,其 
中 le 即 list entry 的 简称 ,是 指向 数据 结构 XXX 中 list_entry_t 成 员 变 量 的 指针 ,也 就 是 存 
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储 在 双向 循环 链表 中 的 节点 地 址 值 , member 则 是 XXX 数据 类 型 中 包含 的 链表 节点 的 成 员 
变量 。 例 如 ,我 们 要 遍历 访问 空闲 块 链表 中 所 有 节点 所 在 的 基于 Page 数据 结构 的 变量 , 则 
可 以 采用 如 下 编程 方式 (基于 lab2/kern/mm/default_pmm. c): 


//free area 是 空闲 块 管理 结构 ,free area.free list 是 空闲 块 链表 头 
free area t free area; 


list_entry tx le= &free area.free list; //le 是 空闲 块 链表 头 指针 
while( (le= list next (le)) != &free area.free list) { /人 从 第 一 个 节点 开始 遍历 


struct Page* p= le2page (le,page link); // 获 取 节 点 所 在 基于 Page 数 据 结构 的 变量 


} 
le2page 宏 ( 定 义 位 于 lab2/kern/mm/memlayout. h) 的 使 用 相当 简单 : 


//corvert list entry to page 
# define le2page (le, menber) 
\to_struct ( (Le) , struct Page, merber) 


相 比 之 下 , 它 的 实现 用 到 的 to_struct 宏和 offsetof 宏 ( 定 义 位 于 lab2/libs/defs. h) WA 
一 些 难 懂 : 


/* Retum the offset of 'meniber' relative to the beginning of a struct type* / 
# define offsetof (type, member) 
((size_t) (&((type* )0)- > member) ) 


px 
* to_struct- get the struct froma ptr 
* @ptr: a struct pointer of metber 
* @type: the type of the struct this is etbedded in 
* @menber: the name of the meniber within the struct 
**/ 
# define to struct (ptr, type, member) 
((type* ) ((char* ) (ptr)- offsetof (type, meniber))) 


这 里 采用 了 一 个 利用 gcc 编译 器 技术 的 技巧 , 即 先 求 得 数据 结构 的 成 员 变量 在 本 宿 
主 数据 结构 中 的 偏 移 量 , 然 后 根据 成 员 变量 的 地 址 反 过 来 得 出 属 主 数据 结构 的 变量 的 
地 址 。 

让 我 们 首先 来 看 offsetof X. size_t 最 终 定义 与 CPU 体系 结构 相关 ,本 实验 都 采用 
Intel x86-32 CPU, 故 szie_t 等 价 于 unsigned int。((type * )0) —>member 的 设计 含义 是 
什么 ? 其 实 这 是 为 了 求 得 数据 结构 的 成 员 变 量 在 本 宿主 数据 结构 中 的 偏 移 量 。 为 了 达到 这 
个 目标 ,首先 将 0 地 址 强制 转换 为 type 数据 结构 (比如 struct Page) 的 指针 ,再 访问 到 type 
数据 结构 中 的 member 成 员 ( 比 如 page_link) 的 地 址 , 即 是 type 数据 结构 中 member 成 员 相 
对 于 数据 结构 变量 的 偏 移 量 。 在 offsetof 宏 中 ,这 个 member 成 员 的 地 址 ( 即 &((type * ) 
0) 一 二 member)) 实 际 上 就 是 type 数据 结构 中 member 成 员 相 对 于 数据 结构 变量 的 偏 移 
量 。 给 定 一 个 结构 ,offsetof(type,member) 是 一 个 常量 ,to_struct 宏 正 是 利用 这 个 不 变 的 
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偏 移 量 来 求 得 链表 数据 项 的 变量 地 址 。 接 下 来 再 分 析 一 下 to_struct 宏 ,可 以 发 现 to_struct 
宏 中 用 到 的 ptr 变量 是 链表 节点 的 地 址 ,把 它 减 去 offsetof 宏 所 获得 的 数据 结构 内 偏 移 量 ， 
即 可 得 到 包含 链表 节点 的 属 主 数据 结构 的 变量 的 地 址 。 
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第 2 章 实验 1: 系统 软件 启动 过 程 


2.1 实验 目的 


操作 系统 是 一 个 软件 , 它 也 需要 通过 某 种 机 制 加 载 并 运行 。 可 以 通过 另外 一 个 更 加 简 
单 的 软件 bootloader 来 完成 这 些 工 作 , 即 需要 一 个 能 够 切换 到 x86 的 保护 模式 并 显示 
字符 的 bootloader ,为 启动 操作 系统 ucore 做 准备 。labl 提供 了 一 个 非常 小 的 bootloader 和 
ucore OS, > bootloader 执行 代码 小 于 512B, 这 样 才 能 放 到 硬盘 的 主 引导 扇 区 中 。 通 过 
分 析 和 实现 这 个 bootloader 和 ucore OS ,读者 可 以 了 解 到 如 下 内 容 。 

(1) 基于 分 段 机 制 的 存储 管理 。 

(2) 设备 管理 的 基本 概念 。 

(3) PC 启动 bootloader 的 过 程 。 

(4) bootloader 的 文件 组 成 。 

(5) 编译 运行 bootloader 的 过 程 。 

(6) 调试 bootloader 的 方法 。 

(7) ucore OS 的 启动 过 程 。 

(8) 在 汇编 级 了 解 栈 的 结构 和 处 理 过 程 。 

(9) 中 断 处 理 机 制 。 

(10) 通过 串口 /并 口 /CGA 输出 字符 的 方法 。 


2.2 实验 内 容 


labl 中 包含 一 个 bootloader 和 一 个 OS。 这 个 bootloader 可 以 切换 到 x86 保护 模式 ,能 
够 读 磁 盘 并 加 载 ELF 执行 文件 格式 ,并 显示 字符 。labl 中 的 OS 只 是 一 个 可 以 处 理 时 钟 中 
断 和 显示 字符 的 幼儿 园 级 别 的 OS。 


2.2.1 4&5 
练习 1: 理解 通过 make 生 成 执行 文件 的 过 程 ( 要 求 在 报告 中 写 出 对 下 述 问 题 的 
回答 ) 。 


在 此 练习 中 ,大 家 需要 通过 静态 分 析 代 码 来 了 解 如 下 内 容 。 
(1) 操作 系统 镜像 文件 ucore. img 是 如 何 一 步 一 步 生成 的 (需要 比较 详细 地 解释 
Makefile 中 每 一 条 相关 命令 和 命令 参数 的 含义 ,以 及 说 明 命令 导致 的 结果 )? 
(2) 一 个 被 系统 认为 是 符合 规范 的 硬盘 主 引 导 扇 区 的 特征 是 什么 ? 
补充 材料 : 如 何 调试 Makefile? 
当 执行 make 时 ,一 般 只 会 显示 输出 ,不 会 显示 make 到 底 执行 了 哪些 命令 。 
siio 


如 想 了 解 make 执行 了 哪些 命令 ,可 以 执行 : 

$make"V=" 

要 获取 更 多 有 关 make 的 信息 ,可 上 网 查询 ,并 请 执行 : 
$ man make 


练习 2: 使 用 qemu 执行 并 调试 labl 中 的 软件 (要 求 在 报告 中 简要 写 出 练习 过 程 )。 

为 了 熟悉 使 用 qemu 和 gdb 进行 的 调试 工作 ,我 们 进行 如 下 小 练习 。 

(1) 从 CPU 加 电 后 执行 的 第 一 条 指令 开始 , 单 步 跟踪 BIOS。 

(2) 在 初始 化 位 置 0x7c00 设置 实地 址 断 点 ,测试 断 点 正常 。 

(3) 从 0x7c00 开始 跟踪 代码 运行 ,将 单 步 跟踪 反 汇 编 得 到 的 代码 与 bootasm. S 和 
bootblock. asm 进行 比较 。 

(4) 自己 找 一 个 bootloader 或 内 核 中 的 代码 位 置 ,设置 断 点 并 进行 测试 。 

提示 : 参考 附录 “启动 后 第 一 条 执行 的 指令 ”。 

补充 材料 : 

我 们 主要 通过 硬件 模拟 器 qemu 来 进行 各 种 实验 ,在 实验 的 过 程 中 可 能 会 遇 上 各 种 各 
样 的 问题 ,调试 是 必要 的 。qemnu 支持 使 用 gdb 进行 强大 而 方便 的 调试 ,所 以 用 好 qemu 和 
gdb 是 完成 各 种 实验 的 基本 条 件 。 

默认 的 gdb 需要 进行 一 些 额外 的 配置 才能 进行 qemu 的 调试 任务 。qemu 和 gdb 之 间 
使 用 网 络 端口 1234 进行 通信 。 在 打开 qemu 进行 模拟 之 后 ,执行 gdb 并 输入 


target remote localhost:1234 


即 可 连接 qemu, 此 时 qemu 会 进入 停止 状态 ,听从 gdb 的 命令 。 

另外 ,可 能 需要 qemu 在 一 开始 便 进入 等 待 模式 , 则 不 再 使 用 make qemu 开始 系统 的 运 
行 , 而 使 用 make debug 来 完成 这 项 工作 。 这 样 qemu 便 不 会 在 gdb 尚未 连接 的 时 候 擅自 运 
TT. 

BIOS 首先 运行 在 16 位 实 模式 下 ,第 一 条 指令 是 jmp, 执 行 这 条 指令 后 会 跳 到 另外 一 
个 地 方 。gdb 默认 是 32 位 线性 地 址 模式 ,调试 BIOS 的 16 位 代码 ( 段 地 址 ) 需 要 手动 计算 地 
址 ,计算 公式 如 下 : 

Linear Addr= (cs< < 4)+ ip 

如 果 CS=0xf000.EIP=0xe05b. M] Linear Address=0xfe05b. 

另外 ,为 了 正确 反 汇 编 16 位 指令 ,在 gdb 中 执行 

(gdb) set architecture i8086 

(gdb)x/16i Oxfe0 


0Oxfe05b: anpl$ 0x0,% cs:- 0x2f2c 
Oxfe062: jne Oxfic792 


(1) gdb 的 地 址 断 点 。 
在 gdb 命令 行 中 ,使 用 b x*[ 地 址 ] 便 可 以 在 指定 内 存 地址 设置 断 点 , 当 qemu 中 的 
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CPU 执行 到 指定 地 址 时 , 便 会 将 控制 权 交 给 gdb. 

(2) 关于 代码 的 反 汇 编 。 

有 可 能 gdb 无 法 正确 获取 当前 qemu 执行 的 汇编 指令 ,通过 如 下 配置 可 以 在 每 次 gdb 
命令 行 前 强制 反 汇编 当前 的 指令 ,在 gdb 命令 行 或 配置 文件 中 添加 : 

define hook- stop 

x/i$pc 

end 
即 可 。 

(3) gdb 的 单 步 命 令 。 

在 gdb 中 ,由 next.nexti,step.stepi 等 指令 来 单 步调 试 程序 ,它们 的 功能 各 不 相同 ,区 
别 在 于 单 步 的 “跨度 ”上 。 

next: 单 步 到 程序 源 代 码 的 下 一 行 .不 进入 函数 。 

nexti: 单 步 一 条 机 器 指令 ,不 进入 函数 。 

step: 单 步 到 下 一 个 不 同 的 源 代码 行 (包括 进入 函数 ) 。 

stepi: 单 步 一 条 机 器 指令 。 

练习 3: 分 析 bootloader 进入 保护 模式 的 过 程 ( 要 求 在 报告 中 进行 分 析 ) 。 

BIOS 将 通过 读 取 硬盘 主 引导 扇 区 到 内 存 , 并 转 跳 到 对 应 内 存 中 的 位 置 执行 
bootloader。 请 分 析 bootloader 是 如 何 完 成 从 实 模式 进入 保护 模式 的 。 

提示 : 需要 阅读 2.3.2 节 中 “保护 模式 和 分 段 机 制 ? 和 1labl/boot/bootasm.S 源码 ,了 解 
如 何 从 实 模式 切换 到 保护 模式 。 

练习 4: 分 析 bootloader 加 载 ELF 格式 的 OS 的 过 程 。( 要 求 在 报告 中 写 出 分 析 ) 。 

通过 阅读 bootmain. c, 了 解 bootloader 如 何 加 载 ELF 文件 。 通 过 分 析 源 代码 和 通过 
qemu 来 运行 并 调试 bootloader&-OS. 

(1) bootloader 是 如 何 读 取 硬 盘 扇 区 的 ? 

(2) bootloader 是 如 何 加 载 ELF 格式 的 OS 的 ? 

提示 : 可 阅读 2.3.2 节 中 的 “硬盘 访问 概述 "和 “ELF 执行 文件 格式 概述 ”。 

练习 5: 实现 函数 调用 堆栈 跟踪 函数 〈 需 要 编程 ) 。 

我 们 需要 在 labl 中 实现 kdebug. c "AY pA BW print_stackframe. FJ VA 3M i$ eh A print_ 
stackframe 来 跟踪 函数 调用 堆栈 中 记录 的 返回 地 址 。 如 果 能 够 正确 实现 此 函数 ,可 在 labl 
中 执行 make qemu 后 ,在 qemu 模拟 器 中 得 到 类 似 如 下 的 输出 : 


ebp:0x00007b28 eip:0x00100992 angs:0x00010094 0x00010094 0x00007b58 0x00100096 
kem/debug/kdebug.c:305: print_stackframe+ 22 
€bp:0x0000738 eip:0x00100c79 args:0x00000000 0:00000000 000000000 0:00007ba8 
kem/debug/kmonitor.c:125: mon_backtrace+ 10 
€bp:0x0000758 eip:0x00100096 args:0x00000000 0x00007b80 0Oxffff0000 0x00007b84 
kem/init/init.c:48: grade backtrace2+ 33 
€bp:0x0000778 eip:0x001000bf args:0x00000000 0Oxffff0000 0x00007ba4 0x00000029 
kem/init/init.c:53: grade _backtracel+ 38 
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€p:0x00007598 eip:0x0010009d angs:0x00000000 000100000 Oxff££0000 00000001d 
kem/init/init.c:58: grade backtrace0+ 23 

ebp:0x00007bb8 eip:0x00100102 args:0x0010353c 0x00103520 0x00001308 000000000 
kem/init/init.c:63: grade _backtrace+ 34 

€hp:0x00007be8 eip:0x00100059 args:0x00000000 000000000 000000000 0x00007c53 
kem/init/init.c:28: kem init+ 88 

ebp:0x00007bf8 eijp:0x00007d73 args:0xc031fcfa Oxc08ed88e Ox64e4d08e Oxfa7502a8 
<unknow> :— — 0x00007d72- 


请 完成 实验 ,看 看 输出 是 否 与 上 述 显 示 一 致 ,并 解释 最 后 一 行 各 个 数值 的 含义 。 

提示 : 可 阅读 2.3.3 节 中 的 “函数 堆栈 ", 了 解 编译 器 是 如 何 建立 函数 调用 关系 的 。 在 
完成 labl 编译 后 ,查看 labl/obj/bootblock. asm, 了 解 bootloader 源码 与 机 器 码 的 语句 和 地 
址 等 的 对 应 关系 ;查看 labl/obj/kernel. asm, T ## ucore OS 源码 与 机 器 码 的 语句 和 地 址 等 

要 求 完 成 函数 kern/debug/kdebug. c::print_stackframe 的 实现 ,提交 改进 后 源 代码 包 
(可 以 编译 执行 ) ,并 在 实验 报告 中 简要 说 明 实 现 过 程 , 并 写 出 对 上 述 问题 的 回答 。 

补充 材料 

显示 完整 的 栈 结 构 需 要 解析 内 核 文 件 中 的 调试 符号 ,这 较为 复杂 和 烦琐 。 代 码 中 有 一 
些 辅助 函数 可 以 使 用 。 例 如 ,可 以 通过 调用 print_debuginfo 函数 完成 查找 对 应 函数 名 并 打 
印 至 屏幕 的 功能 。 具 体 可 以 参见 kdebug. c 代码 中 的 注释 。 

练习 6: 完善 中 断 初始 化 和 处 理 〈 需 要 编程 ) 。 

请 完成 编码 工作 并 回答 如 下 问题 。 

(1) 中 断 向 量 表 中 一 个 表 项 占 多 少 字 节 ? 其 中 哪 几 位 代表 中 断 处 理 代码 的 入 口 ? 

(2) 请 编程 完善 kern/trap/trap. c 中 对 中 断 向 量 表 进行 初始 化 的 函数 idt_init。 在 idt_ 
init 函数 中 ,依次 对 所 有 中 断 入 口 进行 初始 化 。 使 用 mmu. h 中 的 SETGATE %& ,填充 idt 
数组 内 容 。 注 意 除 了 系统 调用 中 断 (T_SYSCALL) 以 外 ,其 他 中 断 均 使 用 中 断 门 描述 符 , 权 
限 为 内 核 态 权限 ;而 系统 调用 中 断 使 用 异常 ,权限 为 陷阱 门 描述 符 。 每 个 中 断 的 入 口 由 
tools/vectors. c 生成 ,使 用 trap. c 中 声明 的 vectors 数组 即 可 。 

(3) 请 编程 完善 trap. c 中 的 中 断 处 理 函 数 trap ,在 对 时 钟 中 断 进 行 处 理 的 部 分 ,请 填写 
trap 函数 中 人 处理 时 钟 中 断 的 部 分 ,使 操作 系统 每 遇 到 100 次 时 钟 中 断后 ,调用 print_ticks 子 
程序 ,向 屏幕 上 打印 一 行文 字 *100 ticks”. 

要 求 完 成 问题 (2) 和 问题 (3) 提 出 的 相关 函数 实现 ,提交 改进 后 的 源 代码 包 ( 可 以 编译 执 
行 ) ,并 在 实验 报告 中 简要 说 明 实 现 过 程 , 并 写 出 对 问题 1 的 回答 。 完 成 问题 (2) 和 问题 (3) 
要 求 的 部 分 代码 后 ,运行 整个 系统 ,可 以 看 到 大 约 每 1s 会 输出 一 次 “100 ticks”, 而 按 下 的 键 
也 会 在 屏幕 上 显示 o 

提示 : 可 阅读 2.3.3 节 中 的 “中 断 与 异常 ”。 

扩展 练习 Challenge( 需 要 编程 ) 

扩展 proj4 ,增加 syscall 功能 ,. 即 增加 一 用 户 态 函数 (可 执行 一 特定 系统 调用 : 获得 时 钟 
计数 值 ) , 当 内 核 初 始 完毕 后 ,可 从 内 核 态 返回 到 用 户 态 的 函数 ,而 用 户 态 的 函数 又 通过 系统 
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调用 得 到 内 核 态 的 服务 (通过 网 络 查询 所 需 信 息 ,可 找 老师 咨询 。 需 写 出 详细 的 设计 和 分 析 
报告 。 

提示 : 规范 一 下 challenge 的 流程 。 

kern_init 调用 switch_test, 该 函数 如 下 : 


static void 

switch test (void) { 
print œur status(); //print 当前 cs/ss/ds 等 寄存 器 状态 
GPrintf("+++ Switch to user mode+++\n"); 
switch to user(); //switch to user mode 


print œr status(); 
Cprintf ("+ ++ switch to kemel mode+ + + \n"); 
switch to kemel(); // switch to kemel mode 
print œr status(); 
} 
switch_to_ x 函数 建议 通过 中 断 处 理 的 方式 实现 。 主 要 要 完成 的 代码 是 在 trap 里 面 处 
理 T_SWITCH_TOx 中断 ,并 设置 好 返回 的 状态 。 
在 labl 里 面 完 成 代码 以 后 ,执行 make grade 应 该 能 够 评测 结果 是 否 正 确 。 


2.2.2 项 目 组 成 


labl 的 整体 目录 结构 如 图 2-1 所 示 。 

其 中 一 些 比较 重要 的 文件 说 明 如 下 。 

1. bootloader 部 分 

(1) boot/bootasm. S : 定义 并 实现 bootloader 最 先 执行 的 函数 start, 此 函数 进行 了 
一 定 的 初始 化 ,完成 了 从 实 模 式 到 保护 模式 的 转换 ,并 调用 bootmain. c 中 的 bootmain 
函数 。 

(2) boot/bootmain. c: 定义 并 实现 了 bootmain 函数 实现 了 通过 屏幕 .串口 和 并 口 显 示 
字符 串 。bootmain 函数 加 载 ucore 操作 系统 到 内 存 , 然 后 跳 转 到 ucore 的 人口 处 执行 。 

(3) boot/asm. h; 是 bootasm. S 汇编 文件 所 需要 的 头 文件 ,主要 是 一 些 与 x86 保护 模 
式 的 段 访问 方式 相关 的 宏 定义 。 

2. ucore 操作 系统 部 分 

1) 系统 初始 化 部 分 

kern/init/init. c; ucore 操作 系统 的 初始 化 启动 代码 。 

2) 内 存 管 理 部 分 

(1) kern/mm/memlayout. h: ucore 操作 系统 有 关 段 管理 ( 段 描述 符 编 号 . 段 号 等 ) 的 一 
JER TE ML 

(2) kern/mm/mmu. h; ucore 操作 系统 有 关 x86 MMU 等 硬件 相关 的 定义 ,包括 
Eflags 寄存 器 中 各 位 的 含义 ,应 用 /系统 段 类 型 ,中 断 门 描述 符 定 义 , 段 描述 符 定义 ,任务 状 
态 段 定义 ,NULL 段 声明 的 宏 SEG_NULL, 特定 段 声 明 的 宏 SEG, 设 置 中 断 门 描述 符 的 宏 
SETGATE( 在 练习 6 中 会 用 到 )。 
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[-— boot 

上 一 asm.h 

上 -一 bootasm.S 
一 一 bootmain.c 
上 一 ke 

— debug 

| 一 assert.h 
上- 一 kdebug.c 
上- 一 kdebug.h 
上 一 kmonitorc 
上 -一 kmonitorh 
上- 一 panic.c 
L— stab.h 
上- 一 driver 

| 一 clock.c 
上- 一 clock.h 

上 -一 console.c 
— console.h 
-— intr.c 

上 一 intrh 
|— kbdreg.h 
— picirg.c 
L— picirq.h 
— init 

l— init.c 
— libs 

|— readline.c 
L— stdio.c 
上 一 mm 

上- 一 memlayout.h 
— mmu.h 
— pmm.c 
L— pmm.h 
L— trap 

上 一 trap.c 

上- 一 trapentry.S 
上- 一 trap.h 
— vectors.S 
— libs 

j defs.h 

上 -一 elfh 

上 一 errorh 

上 -一 printfmt.c 

| 一 stdarg.h 

| 一 stdioh 

上- 一 string.c 

上 -一 string.h 

一 一 X86.h 

| 一 Makefile 

— tools 

上 一 名 nction.mk 
上 一 gdbinit 

上 一 grade.sh 

| 一 kernel.ld 

上 -一 Sign.c 

— vector.c 


10 directories, 48 files 


图 2-1 目录 结构 图 


(3) kern/mm/pmm. [ch]; 设 定 ucore 操作 系统 在 段 机 制 中 要 用 到 的 全 局 变量 : 任务 
状态 段 ts, 全 局 描述 符 表 gdt[L] ,加载 全 局 描述 符 表 寄 存 器 的 函数 lgdt, 临 时 的 内 核 栈 
stack0; 以 及 对 全 局 描述 符 表 和 任务 状态 段 的 初始 化 函数 gdt_init。 

3) 外 设 驱 动 部 分 

(1) kern/driver/intr. [ch]; 实现 了 通过 设置 CPU 的 Eflags 来 屏蔽 和 使 能 中 断 的 
PRL 

(2) kern/driver/picirg. [ch]: 实现 了 对 中 断 控制 器 8259A 的 初始 化 和 使 能 操作 。 

(3) kern/driver/clock. [ch]; 实现 了 对 时 钟 控制 器 8253 的 初始 化 操作 。 

(4) kern/driver/console. [ch]; 实现 了 对 串口 和 键盘 的 中 断 方 式 的 处 理 操作 。 

4) 中 断 处 理 部 分 

(1) kern/trap/vectors. S: 包括 256 个 中 断 服务 例 程 的 入 口 地 址 和 第 一 步 初 步 处 理 实 
现 。 注 意 ,此 文件 是 由 tools/vector. c 在 编译 ucore 期 间 动态 生成 的 。 

(2) kern/trap/trapentry. S: 紧 接着 第 一 步 初步 处 理 后 ,进一步 完成 第 二 步 初步 处 理 ; 
并 且 又 恢复 中 断 上 下 文 的 处 理 , 即 中 断 处 理 完毕 后 的 返回 准备 工作 。 

(3) kern/trap/trap. [ch]: 紧 接 着 第 二 步 初步 处 理 后 ,继续 完成 具体 的 各 种 中 断 处 理 
操作 。 

5) 内 核 调试 部 分 

(1) kern/debug/kdebug. [ch]; 提供 源码 和 二 进 制 对 应 关系 的 查询 功能 ,用 于 显示 调 
用 栈 关 系 。 其 中 , 补 全 print_stackframe 函数 是 需要 完成 的 练习 ,其 他 实现 部 分 不 必 深 究 。 

(2) kern/debug/kmonitor. [ch]; 实现 提供 动态 分 析 命 令 的 kernel monitor, 便 于 在 
ucore 出 现 bug 或 问题 后 ,能 够 进入 kernel monitor 中 ,查看 当前 调用 关系 。 实 现 部 分 不 必 
深究 。 

(3) kern/debug/panic. c | assert. h; 提供 了 panic 函数 和 assert 宏 ,便于 在 发 现 错误 
后 ,调用 kernel monitor。 大 家 可 在 编程 实验 中 充分 利用 assert 宏和 panic 函数 ,提高 查找 
错误 的 效率 。 

3. 公共 库 部 分 

(1) libs/defs. h; 包含 一 些 无 符号 整 型 的 缩写 定义 。 

(2) libs/x86. h; 一 些 用 GNU C 嵌入 式 汇编 实现 的 C 函数 (由 于 使 用 了 inline 关键 字 ， 
所 以 可 以 理解 为 宏 ) 。 

4. 工具 部 分 

(1) Makefile 和 function. mk; 指导 make 完成 整个 软件 项 目的 编译 .清除 等 工作 。 

(2) sign. c: — C 语言 小 程序 ,是 辅助 工具 ,用 于 生成 一 个 符合 规范 的 硬盘 主 引导 
HEK. 

(3) tools/vector. c: 生成 vectors. S ,此 文件 包含 了 中 断 向 量 处 理 的 统一 实现 。 

首先 下 载 labl. tar. bz2 ,然后 解压 labl. tar. bz2。 在 labl 目录 下 执行 make, 可 以 生成 
ucore. img( 生 成 于 bin 目录 下 )。ucore. img 是 一 个 包含 了 bootloader 或 OS 的 硬盘 镜像 ， 
通过 执行 如 下 命令 可 在 硬件 虚拟 环境 qemu 中 运行 bootloader 或 OS; 


$ make gem 
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2.3 ”从 机 器 启动 到 操作 系统 运行 的 过 程 


2.3.1 BIOS 启动 过 程 


当 计算 机 加 电 后 ,一般 不 直接 运行 操作 系统 ,而 是 执行 系统 初始 化 软件 完成 基本 1/0 
初始 化 和 引导 加 载 。 简 单 地 说 ,系统 初始 化 软件 就 是 在 操作 系统 内 核 运 行 之 前 运行 的 一 段 
小 软件 。 通 过 这 段 小 软件 ,可 以 初始 化 硬件 设备 、 建 立 系统 的 内 存 空间 映射 图 ,从 而 将 系统 
的 软 硬 件 环 境 带 到 一 个 合适 的 状态 ,以 便 为 最 终 调用 操作 系统 内 核准 备 好 正确 的 环境 。 最 
终 引 导 加 载 程序 把 操作 系统 内 核 映 像 加 载 到 RAM 中 ,并 将 系统 控制 权 传递 给 它 。 

对 于 绝 大 多 数 计算 机 系统 而 言 ,操作 系统 和 应 用 软件 是 存放 在 磁盘 (硬盘 /软盘 ) .光盘 、 
EPROM ROM, Flash 等 可 在 断 电 后 继续 保存 数据 的 存储 介质 上 。 计 算 机 启动 后 ,CPU 一 
开始 会 到 一 个 特定 的 地 址 开始 执行 指令 ,这 个 特定 的 地 址 存放 了 系统 初始 化 软件 ,负责 完 
计算 机 基本 的 1/0 初始 化 ,这 是 系统 加 电 后 运行 的 第 一 段 软件 代码 。 对 于 Intel 80386 的 体 
系 结构 而 言 ,PC 中 的 系统 初始 化 软件 由 BIOS (Basic Input Output System, 即 基本 输入 输 
出 系统 ,其 本 质 是 一 个 固化 在 主板 FlashMCMOS 上 的 软件 ) 和 位 于 软盘 /硬盘 引导 扇 区 中 的 
OS Boot Loader( 在 ucore 中 的 bootasm. S 和 bootmain. c) 一 起 组 成 。BIOS 实际 上 是 被 固 
化 在 计算 机 ROM( 只 读 存储 器 ) 世 片上 的 一 个 特殊 的 软件 ,为 上 层 软 件 提供 最 底层 的 、 最 直 
接 的 硬件 控制 与 支持 。 更 形象 地 说 ,BIOS 就 是 计算 机 硬件 与 上 层 软 件 程 序 之 间 的 一 个 “ 桥 
梁 ”, 负 责 访问 和 控制 硬件 。 

以 Intel 80386 为 例 ,计算 机 加 电 后 ,CPU 从 物理 地 址 0xFFFFFFF0( 由 初始 化 的 CS: 
EIP 确定 ,此 时 CS 和 了 IP 的 值 分 别 是 0xF000 和 0xFFF0)) 开 始 执 行 。 在 0xXFFFFFFF0 这 里 
只 是 存放 了 一 条 跳 转 指令 ,通过 跳 转 指令 跳 到 BIOS 例 行 程序 起 始点 。BIOS 完成 计算 机 硬 
件 自 检 和 初始 化 后 ,会 选择 一 个 启动 设备 (例如 硬盘 .光盘 等 ) ,并 且 读 取 该 设备 的 第 一 扇 区 
( 即 主 引导 扇 区 或 启动 扇 区 ) 到 内 存 一 个 特定 的 地 址 0x7c00 处 ,然后 CPU 控制 权 会 转移 到 
那个 地 址 继续 执行 。 至 此 BIOS 的 初始 化 工作 做 完了 ,进一步 的 工作 交 给 了 ucore 的 


bootloader。 


2.3.2 bootloader 启动 过 程 


BIOS 将 通过 读 取 硬盘 主 引 导读 区 到 内 存 , 并 转 跳 到 对 应 内 存 中 的 位 置 执行 
bootloader. bootloader 完成 的 工作 包括 如 下 。 

(1) 切换 到 保护 模式 ,启用 分 段 机 制 。 

(2) 读 取 磁盘 中 ELF 执行 文件 格式 的 ucore 操作 系统 到 内 存 。 

(3) 显示 字符 串 信 息 。 

(4) 把 控制 权 交 给 ucore 操作 系统 。 

对 应 的 实现 文件 为 labl 中 的 boot 目录 下 的 三 个 文件 asm. h, bootasm. S 和 
bootmain. c。 下 面 从 原理 上 介绍 完成 上 述 工作 的 计算 机 系统 硬件 和 软件 背景 知识 。 

1. 保护 模式 和 分 段 机 制 

为 何 要 了 解 Intel 80386 的 保护 模式 和 分 段 机 制 ? 首先 ,我们 知道 Intel 80386 只 有 在 进 
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人 保护 模式 后 ,才能 充分 发 挥 其 强大 的 功能 ,提供 更 好 的 保护 机 制 和 更 大 的 寻 址 空间 ,和 否则 
仅仅 是 一 个 快速 的 8086 而 已 。 没 有 一 定 的 保护 机 制 , 任 何 一 个 应 用 软件 都 可 以 任意 访问 所 
有 的 计算 机 资源 ,这 样 也 就 无 从 谈 起 操作 系统 设计 了 , 且 Intel 80386 的 分 段 机 制 一 直 存 在 ， 
无 法 屏蔽 或 避免 。 其 次 ,在 bootloader 的 设计 中 ,涉及 了 从 实 模 式 到 保护 模式 的 处 理 , 我 们 
的 操作 系统 功能 (比如 分 页 机 制 ) 是 建立 在 Intel 80386 的 保护 模式 上 来 设计 的 。 如 果 不 了 
解 保 护 模式 和 分 段 机 制 , 则 面向 Intel 80386 体系 结构 的 操作 系统 设计 实际 上 是 一 个 空中 
PETA 

注意 : 虽然 大 家 学 习 过 x86 汇编 ,对 x86 硬件 架构 有 一 定 了 解 ,但 对 x86 保护 模式 和 
x86 系统 编程 可 能 了 解 不 够 。 为 了 能 够 清楚 了 解 各 个 实验 中 汇编 代码 的 含义 ,建议 大 家 阅 
读 如 下 参考 资料 。 

(1) 可 先 回顾 一 下 lab0-manual 中 的 “了 解 处 理 器 硬件 ”一 节 的 内 容 。 

(2) (Intel 80386 Reference Programmers Manual-i386);# 4,6,9,10 章 。 在 后 续 实验 
中 ,还 可 以 进一步 阅读 第 5.7、8 等 章节 。 

1) 实 模式 

在 bootloader 接手 BIOS 的 工作 后 ,当前 的 PC 系统 处 于 实 模式 (16 位 模式 ) 运 行 状态 ， 
在 这 种 状态 下 软件 可 访问 的 物理 内 存 空间 不 能 超过 1MB, 且 无 法 发 挥 Intel 80386 以 上 级 别 
的 32 位 CPU 的 4GB 内 存 管理 能 力 。 

实 模式 将 整个 物理 内 存 看 成 分 段 的 区 域 ,程序 代码 和 数据 位 于 不 同 区域 , 操 作 系统 和 用 
户 程序 并 没有 区 别 对 待 ,而 且 每 一 个 指针 都 是 指向 实际 的 物理 地 址 。 这 样 , 用 户 程序 的 一 个 
指针 如 果 指 向 了 操作 系统 区 域 或 其 他 用 户 程序 区 域 ,并 修改 了 内 容 , 那 么 其 后 果 就 很 可 能 是 
灾难 性 的 。 通 过 修改 A20 地 址 线 可 以 完成 从 实 模式 到 保护 模式 的 转换 。 有 关 A20 的 进 一 
步 信 息 可 参考 本 章 的 附录 A“ 关 于 A20 Gate”. 

2) 保护 模式 

只 有 在 保护 模式 下 ,80386 的 全 部 32 根 地 址 线 才 有 效 ,可 寻 址 高 达 AGB 的 线性 地 址 空 
间 和 物理 地 址 空间 ,可 访问 64TB( 有 2* 个 段 , 每 个 段 最 大 空间 为 22B) 的 逻辑 地 址 空间 ,可 
采用 分 段 存储 管理 机 制 和 分 页 存储 管理 机 制 。 这 不 仅 为 存储 共享 和 保护 提供 了 硬件 支持 ， 
而 且 为 实现 虚拟 存储 提供 了 硬件 支持 。 通 过 提供 4 个 特权 级 和 完善 的 特权 检查 机 制 , 既 能 
实现 资源 共享 又 能 保证 代码 数据 的 安全 及 任务 的 隔离 。 

3) 分 段 存储 管理 机 制 

只 有 在 保护 模式 下 才能 使 用 分 段 存储 管理 机 制 。 分 段 机 制 将 内 存 划分 成 以 起 始 地 址 和 
长 度 限制 这 两 个 二 维 参数 表示 的 内 存 块 ,这 些 内 存 块 就 称 为 段 (Segment) 。 编 译 器 把 源 程 
序 编译 成 执行 程序 时 用 到 的 代码 段 .数据 段 . 堆 和 栈 等 概念 在 这 里 可 以 与 段 联系 起 来 ,两 者 
在 含义 上 是 一 致 的 。 

分 段 机 制 涉及 4 个 关键 内 容 : 逻辑 地 址 、 段 描述 符 ( 描 述 段 的 属性 )、 段 描述 符 表 (包含 
多 个 段 描 述 符 的 “数组 ”) 、 段 选择 子 ( 段 寄存 器 ,用 于 定位 段 描述 符 表 中 表 项 的 索引 )。 转 换 
逻辑 地 址 (Logical Address, 应 用 程序 员 看 到 的 地 址 ) 到 物理 地 址 (Physical Address, 实际 的 
物理 内 存 地 址 ) 分 以 下 两 步 。 

(1) 分 段 地 址 转换 : CPU 把 逻辑 地 址 (由 段 选 择 子 Selector 和 有 段 偏 移 Offset 组 成 ) 中 的 
段 选择 子 的 内 容 作为 段 描述 符 表 的 索引 ,找到 表 中 对 应 的 段 描述 符 , 然 后 把 段 描 述 符 中 保存 
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的 段 基 址 加 上 段 偏 移 值 ,形成 线性 地 址 (Linear Address) 。 如 果 不 启 动 分 页 存储 管理 机 制 ， 
则 线性 地 址 等 于 物理 地 址 。 

(2) 分 页 地 址 转换 ,这 一 步 中 把 线性 地 址 转换 为 物理 地 址 (这 一 步 是 可 选 的 ,由 操作 系 
统 决 定 是 否 需要 ,在 后 续 实 验 中 会 涉及 ) 。 

上 述 转换 过 程 对 于 应 用 程序 员 来 说 是 不 可 见 的 。 线 性 地 址 空间 由 一 维 的 线性 地 址 构 
成 ,线性 地 址 空间 和 物理 地 址 空间 对 等 。 线 性 地 址 长 32 位 ,线性 地 址 空间 容量 为 4GB。 分 
段 地 址 转换 的 基本 过 程 如 图 2-2 所 示 。 


15 0 31 0 
Selector | Offset 


Logical 
Address 


Descriptor Table 


Segment || Base 
Descriptor || Address 


Linear A 
Address Dir Page | Offset 


图 2-2 分 段 地 址 转换 基本 过 程 


分 段 存储 管理 机 制 需 要 在 启动 保护 模式 的 前 提 下 建立 。 从 图 2-2 可 以 看 出 ,为 了 使 分 
段 存储 管理 机 制 正常 运行 ,需要 建立 好 段 描 述 符 和 段 描述 符 表 ( 参 见 bootasm. S, mmu. h, 
pmm. c). 

(1) 段 描述 符 。 

在 分 段 存储 管理 机 制 的 保护 模式 下 ,每 个 段 由 段 基 地 址 (Base Address)、 段 界限 
(Limit) 和 段 属 性 (Attributes) 三 个 参数 进行 定义 。 在 ucore 中 的 kern/mm/mmu. h 中 的 
struct segdesc 数据 结构 中 有 具体 的 定义 。 

© 段 基 地 址 : 规定 线性 地 址 空间 中 段 的 起 始 地 址 。 在 80386 保护 模式 下 , 段 基地 址 长 
32 位 。 因 为 基地 址 长 度 与 寻 址 地 址 的 长 度 相同 ,所 以 任何 一 个 段 都 可 以 从 32 位 线性 地 址 
空间 中 的 任何 一 个 字 节 开始 ,而 不 像 实 方式 下 规定 的 边界 必须 被 16 整除 。 

@ 段 界限 : 规定 段 的 大 小 。 在 80386 保护 模式 下 , 段 界 限 用 20 位 表示 ,而 且 段 界限 可 
以 是 以 字 节 (B) 为 单位 或 以 4KB 为 单位 。 

@ 段 属性 : 确定 段 的 各 种 性 质 。 

a. 段 属性 中 的 粒度 位 (CGranularity) ,用 符号 G RW. G=0 表示 以 段 界限 为 单位 ,20 
位 的 界限 可 表示 的 范围 是 1B 一 1MB, 增 量 为 1B:G=1 表示 段 界 限 以 4KB 为 单位 ,于 是 20 
位 的 界限 可 表示 的 范围 是 4KB 一 4GB, 增 量 为 4KB。 

b. 类 型 (Type) : 用 于 区 别 不 同类 型 的 描述 符 。 可 表示 所 描述 的 段 是 代码 段 还 是 数据 
段 , 所 描述 的 段 是 否 可 读 / 写 /执行 , 段 的 扩展 方向 等 。 

c. 描述 符 特权 级 (Descriptor Privilege Level, DPL): 用 来 实现 保护 机 制 。 

d. 段 存在 位 (Segment-Present bit); 如 果 这 一 位 为 0, 则 此 描述 符 为 非法 的 ,不 能 被 用 
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来 实现 地 址 转换 。 如 果 一 个 非法 描述 符 被 加 载 进 一 个 段 寄 存 器 ,处 理 器 会 立即 产生 异常 。 


(Available) 的 位 。 


图 2-3 显示 了 当 存 在 位 为 0 时 ,描述 符 的 格式 。 操 作 系 统 可 以 任意 地 使 用 被 标识 为 可 用 


e 已 访问 位 (Accessed bit): 当 人 处理 器 访问 该 段 ( 当 一 个 指向 该 段 描述 符 的 选择 子 被 加 
载 进 一 个 段 寄存 器 ) 时 ,将 自动 设置 访问 位 。 操 作 系 统 可 清除 该 位 。 
上 述 参数 通过 段 描述 符 来 表示 , 段 描述 符 的 结构 如 图 2-3 所 示 。 


31 23 15 7 0 
fi 1 1 
人 | Limit 
Base 31..24 G|xlolul ioie [P| DPL |1| Type JA Base 23..16 4 
L i 
Segment Base 15..0 Segment Limit 15..0 0 
- T + 
(a) 应 用 代码 和 数据 段 
31 23 15 了 0 
A| Limit 
Base 31..24 GIXIOIU 19..16 P| DPL |0 Type Base 23..16 4 
L 2 
Segment Base 15..0 Segment Limit 15..0 0 
1 1 
T T T 
A - Accessed 
AUL - Auailable for Use by Systems Programmers 
DPL - Descriptor Privilege Level 
G - Granularity 


- Segment Present 


(b) 系统 段 
图 2-3 段 描述 符 结 


(2) 全 局 描述 符 表 。 


构 


全 局 描述 符 表 是 一 个 保存 多 个 段 描 述 符 的 “数组 ”, 其 起 始 地 址 保存 在 全 局 描述 符 表 寄 
存 器 GDTR 中 。GDTR K 48 位 ,其 中 高 32 位 为 基地 址 , 低 16 位 为 段 界限 。 由 于 GDT 不 
能 有 GDT 本 身 之 内 的 描述 符 进行 描述 定义 ,所 以 处 理 器 采用 GDTR 为 GDT 这 一 特殊 的 系 
统 段 。 注 意 , 全 部 描述 符 表 中 第 一 个 段 描述 符 设 定 为 空 段 描述 符 。GDTR 中 的 段 界限 以 字 
节 为 单位 。 对 于 含有 N 个 描述 符 的 描述 符 表 的 段 界限 通常 可 设 为 8XN 一 1。 在 ucore 中 
的 boot/bootasm, S 中 的 GDT 地 址 处 和 kern/mm/pmm. c 中 的 全 局 变量 数组 gdt[ ] 分 别 有 


基于 汇编 语言 和 C 语言 的 全 局 描述 符 表 的 具体 实现 。 

(3) 选择 子 。 

线性 地 址 部 分 的 选择 子 是 用 来 选择 哪个 描述 
符 表 和 在 该 表 中 索引 一 个 描述 符 的 。 选 择 子 可 以 
作为 指针 变量 的 一 部 分 ,从 而 对 应 用 程序 员 是 可 见 
的 ,但 是 一 般 是 由 连接 加 载 器 来 设置 。 选 择 子 的 格 
式 如 图 2-4 所 示 。 

O 索引 (CIndex): 从 描述 符 表 中 的 8192 个 描 


Index 


-Table Indicator 
-Requested’s Privilege Level 


图 2-4 BTA 


。51 。 


述 符 中 选择 一 个 描述 符 。 PEN E 8( 描 述 符 的 长 度 ) ,再 加 上 描述 符 
表 的 基 址 来 索引 描述 符 表 ,从 而 选 出 一 个 合适 的 描述 符 。 

© 表 指 示 位 (Table Indicator, TI) : se aioe 个 描述 符 表 。0 代表 应 该 访问 全 
局 描述 符 表 (GDT),1 代表 应 该 访问 局 部 描述 符 表 (LDT) 。 

© 请 求 特权 级 (Requested Privilege Level, RPL): 保护 机 制 ,在 后 续 实验 中 会 进一步 
讲解 。 

全 局 描述 符 表 的 第 一 项 不 能 被 CPU 使 用 ,所 以 当 一 个 段 选择 子 的 索引 (Index) 部 分 
和 表 指 示 位 (Table Indicator) 都 为 0 时 ( 即 段 选择 子 指向 全 局 描述 符 表 的 第 一 项 时 ) ,可 以 
当做 一 个 空 的 选择 子 ( 见 mmu. h 中 的 SEG_NULL)。 当 一 个 段 寄 存 器 被 加 载 一 个 空 选择 
子 时 ,处 理 器 并 不 会 产生 一 个 异常 。 但 是 , 当 用 一 个 空 选择 子 去 访问 内 存 时 , 则 会 产生 
异常 。 

4) 保护 模式 下 的 特权 级 

在 保护 模式 下 ,特权 级 总 共有 4 个 ,编号 从 0( 最 高 特权 ) 到 3( 最 低 特权 )。 有 3 种 主要 
的 资源 受到 保护 : 内 存 .IO 端口 以 及 执行 特殊 机 器 指令 的 能 力 。 在 任 一 时 刻 ,x86 CPU 都 

一 个 特定 的 特权 级 下 运行 的 ,从 而 决定 了 代码 可 以 做 什么 ,不 可 以 做 什么 。 这 些 特权 级 
经 常 被 称 为 保护 环 (Protection Ring), 最 内 的 环 (ring 0) 对 应 于 最 高 特权 0, 最 外 面 的 环 
(ring 3) 一 般 给 应 用 程序 使 用 ,对 应 最 低 特权 3。 在 ucore 中 ,CPU 只 用 到 其 中 的 2 个 特权 
级 : 0( 内 核 态 ) 和 3( 用 户 态 ) 。 

有 大 约 15 条 机 器 指令 被 CPU 限制 只 能 在 内 核 态 执行 ,这 些 机 器 指令 如 果 被 用 户 模式 
的 程序 所 使 用 ,就 会 颠覆 保护 模式 的 保护 机 制 并 引起 混乱 ， aA 人 操作 系统 内 核 
使 用 。 如 果 试 图 在 ring 0 以 外 运行 这 些 指令 ,就 会 导致 一 个 一 般 保 护 异 常 (General- 
protection Exception), X} EAI I/O 端口 的 访问 也 受 ion. 

数据 段 选择 子 的 整个 内 容 可 由 程序 直接 加 载 到 各 个 段 寄存 器 (如 SS BK DS 等 ) 中 。 这 
些 内 容 里 包含 了 请 求 特权 级 字段 。 然 而 ,代码 段 寄 存 器 (CS) 的 内 容 不 能 由 装载 指令 (如 
MOV) 直 接 设 置 , 而 只 能 被 那些 会 改变 程序 执行 顺序 的 指令 (如 JMP、INT、CALL) 间 接地 
设置 ,而 且 CS 拥有 一 个 由 CPU 维护 的 当前 特权 级 字段 (Current Privilege Level, CPL). 
两 者 结构 如 图 2-5 所 示 。 


16 位 Index(3~15) RPL 16 位 Index(3~15) 


15 2 0 15 
(a) 数据 段 选择 子 (b) 代码 段 选择 子 


图 2-5 DS 和 CS 的 结构 图 


CPL 


tb [e 


代码 段 寄存 器 中 的 CPL 字段 (2 位 ) 的 值 总 是 等 于 CPU 的 当前 特权 级 ,所 以 只 要 看 一 
IR CS 中 的 CPL ,就 可 以 知道 此 刻 的 特权 级 。 
CPU 会 在 两 个 关键 点 上 保护 内 存 : 当 一 个 段 选 择 符 被 加 载 时 ,以 及 当 通 过 线性 地 址 访 
一 个 内 存 页 时 。 因 此 ,保护 也 反映 在 内 存 地 址 转换 的 过 程 之 中 , 既 包 括 分 段 又 包括 分 页 。 
当 一 个 数据 段 选择 符 被 加 载 时 ,就 会 发 生 如 图 2-6 所 示 的 检测 过 程 。 
因为 数值 越 大 特权 越 低 , 图 2-6 中 的 MAX() 用 于 选择 CPL 和 RPL 中 特权 最 低 的 一 
个 ,并 与 描述 符 特权 级 (Descriptor Privilege Level. DPL) E$. WR DPL 的 值 大 于 等 于 它 ， 
èga 


Current Code 
Segment Register 


CPL 
True: 
Data Segment Selector Segment Load Ok 


Being Loaded 


Index |T| RPL 


r MAX(CPL, RPL)<=DPL 


False: 
General-protection 
Exception 


Selects 


Segment Descriptor 


DPL 


图 2-6 ”内存 访 问 特权 级 检查 过 程 


那么 这 个 访问 可 正常 进行 了 。RPL 背后 的 设计 思想 是 : 允许 内 核 代 码 加 载 特权 较 低 的 段 。 
例如 ,可 以 使 用 RPL=3 的 段 描述 符 来 确保 给 定 的 操作 所 使 用 的 段 可 以 在 用 户 模 式 中 访问 。 
但 堆栈 段 寄 存 器 是 个 例外 , 它 要 求 CPL, RPL 和 DPL 这 3 个 值 必须 完全 一 致 , 才 可 以 被 加 
载 。 下 面 再 总 结 一 下 CPL.RPL 和 DPL. 

(1) CPL: 当前 特权 级 (Current Privilege Level) 保存 在 CS 段 寄 存 器 (选择 子 ) 的 最 低 
两 位 ,CPL 就 是 当前 活动 代码 段 的 特权 级 ,并 且 它 定义 了 当前 所 执行 程序 的 特权 级 别 。 

(2) DPL: 描述 符 特权 存储 在 段 描述 符 中 的 权限 位 ,用 于 描述 对 应 段 所 属 的 特权 等 级 ， 
也 就 是 段 本 身 真正 的 特权 级 。 

(3) RPL: 请 求 特权 级 保存 在 选择 子 的 最 低 两 位 。RPL 说 明 的 是 进程 对 段 访 问 的 请 求 
权限 ,意思 是 当前 进程 想 要 的 请 求 权限 。RPL 的 值 由 程序 员 自 己 设置 ,并 不 一 定 RPL >= 
CPL, 但 是 当 RPL<CPL 时 ,实际 起 作用 的 就 是 CPL 了 ,因为 访问 时 的 特权 检查 是 判断 max 
CRPL,.CPL)<=DPL 是 否 成 立 , 所 以 RPL 可 以 看 成 每 次 访问 时 的 附加 限制 ,RPL=0 时 附 
加 限制 最 小 ,RPL=3 时 附加 限制 最 大 。 

2. 地 址 空间 

分 段 机 制 涉及 逻辑 地 址 (Logical Address ,应 用 程序 员 看 到 的 地 址 ,在 操作 系统 原理 上 
称 为 虚拟 地 址 ,以 后 提 到 虚拟 地 址 就 是 指 逻辑 地 址 )、 物 理 地 址 (Physical Address, 实际 的 
物理 内 存 地 址 ) 、 段 描述 符 表 ( 包 含 多 个 段 描 述 符 的 数组 ) 、 段 描述 符 ( 描 述 段 的 属性 ,及 段 描 
述 符 表 这 个 数组 中 的 数组 元 素 ) 和 有 段 选择 子 ( 即 段 寄存 器 中 的 值 ,用 于 定位 段 描述 符 表 中 段 
描述 符 表 项 的 索引 )。 

D 逻辑 地 址 空间 

从 应 用 程序 的 角度 看 ,逻辑 地 址 空间 就 是 应 用 程序 员 编 程 所 用 到 的 地 址 空间 ,例如 ,下 
面 的 程序 片段 : 

int val= 100; 

int * point= gval; 

其 中 指针 变量 point 中 存储 的 就 是 一 个 逻辑 地 址 。 在 基于 80386 的 计算 机 系统 中 , 逮 
辑 地 址 由 一 个 16 位 的 段 寄存 器 (也 称 为 段 选择 子 ) 和 一 个 32 位 的 偏 移 量 构成 。 
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2) 物理 地 址 空间 

从 操作 系统 的 角度 看 ,CPU 内 存 硬 件 (通常 说 的 内 存 条 ) 和 各 种 外 设 是 它 主 要 管理 的 
硬件 资源 ,而 内 存 硬件 和 外 设 分 布 在 物理 地 址 空间 中 。 物 理 地 址 空间 就 是 一 个 “大 数组 ”， 
CPU 通过 索引 (物理 地 址 ) 来 访问 这 个 “大 数组 中 的 内 容 。 物 理 地 址 是 指 CPU 提交 到 内 存 
总 线 上 用 于 访问 计算 机 内 存 和 外 设 的 最 终 地 址 。 

物理 地 址 空间 的 大 小 取决 于 CPU 实现 的 物理 地 址 位 数 ,在 基于 80386 的 计算 机 系统 
中 ,CPU 的 物理 地 址 空间 为 4GB, 如 果 计 算 机 系统 实际 上 有 1GB 物理 内 存 ( 即 通常 说 的 内 
存 条 ) ,而 其 他 硬件 设备 的 1/O 寄存 器 映射 到 起 始 物理 地 址 为 3GB 的 256MB 大 小 的 地 址 空 
间 , 则 该 计算 机 系统 的 物理 地 址 空间 如 图 2-7 所 示 。 


Joessa aa + <- OxFFFFFFFF(4GB) 
无 效 空间 

+- 一 一 一 一 一 一 一 + <-addr: 3GB+256MB 
256MB 

IO 外 设 地 址 空间 

本 + <- 0xC0000000(3GB) 

AVW 

MW WN m 
无 效 空间 

中 = 二 二 一 二 一 + <- 0x40000000(1GB) 

实际 有 效 内 存 

Peas aa Se + <- 0x00100000 (IMB) 
BIOS ROM | 

+t- 一 -一 一 一 -+ <- 0x000F0000 (960KB) 

16 位 设备 ， | 
expansion ROMs 
和 + <- 0x000C0000 (768KB) 
VGA Display 
十 -一 一 一 一 一 一 一 + <- 0x000A0000 (640KB) 
Low Memory | 
fo oe + <- 0x00000000 


图 2-7 x86 计算 机 系统 的 物理 地 址 空间 


3) 线性 地 址 空间 

一 台 计 算 机 只 有 一 个 物理 地 址 空间 ,但 在 操作 系统 的 管理 下 ,每 个 程序 都 认为 自己 独占 
整个 计算 机 的 物理 地 址 空间 。 为 了 让 多 个 程序 能 够 有 效 地 相互 隔离 和 使 用 物理 地 址 空间 ， 
引入 线性 地 址 空间 (也 称 为 虚拟 地 址 空间 ) 的 概念 。 线 性 地 址 空间 的 大 小 取决 于 CPU 实现 
的 线性 地 址 位 数 ,在 基于 80386 的 计算 机 系统 中 ,CPU 的 线性 地 址 空间 为 4GB。 线 性 地 址 
空间 会 被 映射 到 某 一 部 分 或 整个 物理 地 址 空间 ,并 通过 索引 (线性 地 址 ) 来 访问 其 中 的 内 容 。 
线性 地 址 又 称 为 虚拟 地 址 ,是 进行 逻辑 地 址 转换 后 形成 的 地 址 索引 ,用 于 寻 址 线性 地 址 空 
间 。CPU 未 启动 分 页 机 制 时 ,线性 地 址 等 于 物理 地 址 ; 当 CPU 启动 分 页 机 制 时 ,线性 地 址 
还 需 经 过 分 页 地 址 转换 形成 物理 地 址 后 ,CPU 才能 访问 内 存 硬 件 和 外 设 。 三 种 地 址 的 关系 
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如 下 所 示 。 

© 启动 分 段 机 制 ,未 启动 分 页 机 制 : 逻辑 地 址 一 一 二 (分 段 地 址 转换 ) 一 一 二 线性 地 址 = 二 
物理 地 址 。 

© 启动 分 段 和 分 页 机 制 : 逻辑 地 址 一 一 二 (分 段 地址 转换 ) 一 一 二 线性 地 址 一 一 二 分 
页 地 址 转换 ) 一 一 二 物理 地 址 。 

在 操作 系统 的 管理 下 ,采用 灵活 的 内 存 管理 机 制 ,在 只 有 一 个 物理 地 址 空间 的 情况 下 ， 
可 以 存在 多 个 线性 地 址 空间 。 

3. 硬盘 访问 概述 

bootloader 让 CPU 进入 保护 模式 后 ,下 一 步 的 工作 就 是 从 硬盘 上 加 载 并 运行 OS。 考 
虑 到 实现 的 简单 性 ,bootloader 的 访问 硬盘 都 是 LBA 模式 的 PIO(Program 1/0O) 方 式 , 即 所 
有 的 1/O 操作 是 通过 CPU 访问 硬盘 的 1/O 地 址 寄存 器 完成 。 

一 般 主 板 有 2 个 IDE 通道 ,每 个 通道 可 以 接 2 个 IDE 硬盘 。 访 问 第 一 个 硬盘 的 扇 区 可 
设置 /O 地 址 寄存 器 0xlf0 一 0xlf7 实现 的 ,具体 参数 如 表 2-1 所 示 。 一 般 第 一 个 IDE 通道 
通过 访问 1/0 地 址 0xlfo 一 0xlf7 来 实现 ,第 二 个 IDE 通道 通过 访问 Ox170~Ox17f 实现 。 
每 个 通道 的 主 从 盘 的 选择 通过 第 6 个 1/O 偏 移 地 址 寄存 器 来 设置 。 磁 盘 1/0 地 址 及 对 应 
功能 如 表 2-1 所 示 。 


表 2-1 磁盘 1/0 地 址 及 对 应 功能 


1/0 地 址 功 能 
0xlf0 读数 据 , 当 0xlf7 不 为 忙 状 态 时 ,可 以 读 
Oxlfl 可 获取 详细 错误 信息 
Oxlf2 要 读 写 的 扇 区 数 ,每 次 读 写 前 ,需要 表明 要 读 写 几 个 扇 区 。 最 小 是 1 个 扇 区 
Ox1f3 如 果 是 LBA 模式 ,就 是 LBA 参数 的 0 一 7 位 
0xlf4 如 果 是 LBA 模式 ,就 是 LBA 参数 的 8 一 15 位 
0xlf5 如 果 是 LBA 模式 ,就 是 LBA 参数 的 16 一 23 位 
cits 第 0 一 3 位 :如 果 是 LBA 模式 就 是 24 一 27 位 第 4 位 :为 0 主 盘 ; 为 1 从 盘 
第 6 位 :为 1 是 LBA 模式 ;为 0 是 CHS 模 式 第 5 位 和 第 7 位 必须 为 1 
Ox1f7 状态 和 命令 寄存 器 。 操 作 时 先 给 命令 ,再 读 取 , 如 果 不 是 忙 状态 就 从 0xlfo 端口 读数 据 


当前 硬盘 数据 储存 到 硬盘 鹿 区 中 ,一 个 鹿 区 大 小 为 512B。 读 一 个 扇 区 的 流程 (可 参看 
boot/bootmain. c 中 的 readsect 函数 实现 ) 大 致 如 下 。 

(1) 等 待 磁盘 准备 好 。 

(2) 发 出 读 取 扇 区 的 命令 。 

(3) 等 待 磁盘 准备 好 。 

(4) 把 磁盘 扇 区 数据 读 到 指定 内 存 。 

4. ELF 文件 格式 概述 

ELF(Executable and Linking Format) 文 件 格式 是 Linux 系统 下 的 一 种 常用 目标 文件 
(Object File) 格 式 , 有 三 种 主要 类 型 。 

(1) 用 于 执行 的 可 执行 文件 (Executable File) , 它 用 于 提供 程序 的 进程 映像 ,加 载 的 内 
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存 执行 。 这 也 是 本 实验 的 OS 文件 类 型 。 

(2) 用 于 链接 的 可 重 定位 文件 (Relocatable File) , 它 可 与 其 他 目标 文件 一 起 创建 可 执 
行文 件 和 共享 目标 文件 。 

(3) 共享 目标 文件 (Shared Object File) ,链接 器 可 将 它 与 其 他 可 重 定位 文件 和 共享 目 
标 文件 链接 成 其 他 的 目标 文件 ,动态 链接 器 又 可 将 它 与 可 执行 文件 和 其 他 共享 目标 文件 结 
合 起 来 创建 一 个 进程 映像 。 

这 里 只 分 析 与 本 实验 相关 的 ELF 可 执行 文件 类 型 。ELF header 在 文件 开始 处 描述 了 
整个 文件 的 组 织 。ELF 的 文件 头 包 含 整个 执行 文件 的 控制 结构 ,其 定义 在 elf.h 中 。 


struct elfhdr { 
uint magic; //must equal ELF MAGIC 
uchar elf [12]; 
ushort type; 
ushort machine; 
uint version; 
uint entry; // 程 序 人 口 的 虚拟 地 址 
uint phoff; //program header 表 的 位 置 偏 移 
uint shoff; 
uint flags; 
ushort ehsize; 
ushort phentsize; 
ushort phnum; //program header 表 中 的 入 口 数 目 
ushort shentsize; 
ushort shnun; 
ushort shstrndx; 
F 
program header 描述 与 程序 执行 直接 相关 的 目标 文件 结构 信息 ,用 来 在 文件 中 定位 各 
个 段 的 映像 ,同时 包含 其 他 一 些 用 来 为 程序 创建 进程 映像 所 必需 的 信息 。 可 执行 文件 的 程 
序 头 部 是 一 个 program header 结构 的 数组 , 每 个 结构 描述 了 一 个 段 或 者 系统 准备 程序 执行 
所 必需 的 其 他 信息 。 目 标 文件 的 “ 段 ” 包含 一 个 或 者 多 个 “ 节 区 ”(Section) ,也 就 是 “ 段 内 
容 (Segment Contents)”。 程 序 头 部 仅 对 于 可 执行 文件 和 共享 目标 文件 有 意义 。 可 执行 目 
标 文件 在 ELF 头 部 的 e_phentsize 和 e_phnum 成 员 中 给 出 其 自身 程序 头 部 的 大 小 。 程 序 
头 部 的 数据 结构 如 下 所 示 : 


struct proghdr { 
uint type; MERE 
uint offset; // 段 相对 文件 头 的 偏 移 值 
uint va; // 段 的 第 一 个 字 节 将 被 放 到 内 存 中 的 虚拟 地 址 
uint pa; 
uint filesz; 
uint memsz; /自在 内 存 映 像 中 占用 的 字 节 数 
uint flags; 
uint align; 
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根据 elfhdr 和 proghdr 的 结构 描述 ,bootloader 就 可 以 完成 对 ELF 格式 的 ucore 操作 
系统 的 加 载 过程 ( 参 见 boot/bootmain. c 中 的 bootmain 函数 ) 。 

补充 材料 

Link Address 是 指 编译 器 指定 代码 和 数据 所 需要 放置 的 内 存 地 址 ,由 链接 器 配置 。 
Load Address 是 指 程序 被 实际 加 载 到 内 存 的 位 置 (由 程序 加 载 器 ld 配置) 。 一 般 由 可 执行 文件 
结构 信息 和 加 载 器 可 保证 这 两 个 地 址 相同 。Link Addr 和 LoadAddr 不 同 会 导致 如 下 问题 。 

(1) 直接 跳 转 位 置 错误 。 

(2) 直接 内 存 访问 (只 读数 据 区 或 bss 等 直接 地 址 访问 ) 错 误 。 

(3) 堆 和 栈 等 的 使 用 不 受 影响 ,但 是 可 能 会 覆盖 程序 数据 区 域 。 

注意 : 也 存在 Link 地 址 和 Load 地 址 不 一 样 的 情况 (例如 ,动态 链接 库 ) 。 


2.3.3 操作 系统 启动 过 程 


当 bootloader 通过 读 取 硬盘 扇 区 把 ucore 在 系统 加 载 到 内 存 后 ,就 转 跳 到 ucore 操作 系 
统 在 内 存 中 的 入 口 位 置 (kern/init. c 中 的 kern_init 函数 的 起 始 地 址 ) ,这 样 ucore 就 接管 了 
整个 控制 权 。 当 前 的 ucore 功能 很 简单 ,只 完成 基本 的 内 存 管理 和 外 设 中 断 管理 。ucore € 
要 完成 的 工作 如 下 。 

(1) 初始 化 终端 。 

(2) 显示 字符 串 。 

(3) 显示 堆栈 中 的 多 层 函 数 调 用 关系 。 

(4) 切换 到 保护 模式 ,启用 分 段 机 制 。 

G) 初始 化 中 断 控 制 器 ,设置 中 断 描 述 符 表 , 初 始 化 时 钟 中 断 , 使 能 整个 系统 的 中 断 机 制 。 

(6) 执行 while(1) 死 循环 。 

以 后 的 实验 中 会 大 量 涉及 各 个 函数 直接 的 调用 关系 ,以 及 由 于 中 断 处 理 导致 的 异步 现 
象 ,可 能 对 大 家 实现 操作 系统 和 改正 其 中 的 错误 有 很 大 影响 。 理 解 好 函数 调用 关系 的 建立 
机 制 和 中 断 处 理 机 制 ,对 后 续 实 验 会 有 很 大 帮助 。 下 面 就 练习 5 涉及 的 函数 栈 调用 关系 和 
练习 6 中 的 中 断 机 制 的 建立 进行 曾 述 。 

1, 函数 堆栈 

栈 是 一 个 很 重要 的 编程 概念 (编译 课 和 程序 设计 课 都 讲 过 相关 内 容 ) ,与 编译 器 和 编程 
语言 有 紧密 的 联系 。 理 解 调用 栈 最 重要 的 两 点 是 栈 的 结构 和 EBP 寄存 器 的 作用 。 一 个 函 
数 调用 动作 可 分 解 为 零 到 多 个 PUSH 指令 (用 于 参数 入 栈 ) ,一 个 CALL 指令 。CALL 指令 
内 部 其 实 还 暗含 了 一 个 将 返回 地 址 ( 即 CALL 指令 
下 一 条 指令 的 地 址 ) 压 栈 的 动作 (由 硬件 完成 )。 几 
乎 所 有 本 地 编译 器 都 会 在 每 个 函数 体 之 前 插入 类 似 


+ 


( 栈 底 方向 | 高 位 地 址 


如 下 的 汇编 指令 ， sm 
pushl %ekp 参数 2 | 
movl %esp, Sep 参数 1 | 

返回 地 址 | 


这 样 在 程序 执行 到 一 个 函数 的 实际 指令 前 ,已 上 一 层 [ebp] | <-------- [ebp] 
经 有 以 下 数据 顺序 人 栈 : 参数 、 返 回 地 址 、ebp 寄存 局 部 变量 | ”低位 地 址 
器 。 由 此 得 到 类 似 如 图 2-8 的 栈 结构 (参数 入 栈 顺 
序 跟 调用 方式 有 关 , 这 里 以 C 语言 默认 的 CDECL 


图 2-8 ”函数 调用 栈 结构 


为 例 ) 。 

这 两 条 汇编 指令 的 含义 是 : 首先 将 ebp 寄存 器 人 栈 ,然后 将 栈 顶 指针 esp 赋值 给 ebp。 
“mov ebp esp” 这 条 指令 表面 上 看 是 用 esp 覆盖 ebp 原来 的 值 ,其 实 不 然 。 因 为 给 ebp 赋值 
之 前 , 原 ebp 值 已 经 被 压 栈 (位 于 栈 顶 ) ,而 新 的 ebp 又 恰恰 指向 栈 顶 。 此 时 ebp 寄存 器 就 已 
经 处 于 一 个 非常 重要 的 地 位 ,该 寄存 器 中 存储 着 栈 中 的 一 个 地 址 ( 原 ebp 入 栈 后 的 栈 顶 ) ,从 
该 地 址 为 基准 ,向 上 ( 栈 底 方向 ) 能 获取 返回 地 址 、 参 数值 ,向 下 ( 栈 顶 方向 ) 能 获取 函数 局 部 
变量 值 ,而 该 地 址 处 又 存储 着 上 一 层 函 数 调用 时 的 ebp 值 。 

一 般 而 言 ,ss:[ebp 十 4] 处 为 返回 地 址 ,ss:[Lebp 十 8] 处 为 第 一 个 参数 值 (最 后 一 个 人 栈 
的 参数 值 , 此 处 假设 其 占用 4B 内 存 ) ,ss:[ebp 一 4 处 为 第 一 个 局 部 变量 ,ss:[ebp] 处 为 上 一 
层 ebp 值 。 由 于 ebp 中 的 地 址 处 总 是 “上 一 层 函 数 调用 时 的 ebp 值 ”, 而 在 每 一 层 函 数 调用 
中 ,都 能 通过 当时 的 ebp 值 * 向 上 ( 栈 底 方向 )" 能 获取 返回 地 址 、 参 数值 ,“ 向 下 ( 栈 顶 方向 )” 
能 获取 函数 局 部 变量 值 。 如 此 形成 递归 ,直至 到 达 栈 底 。 这 就 是 函数 调用 栈 。 

提示 : 练习 5 的 正确 实现 取决 于 对 这 一 节 的 正确 理解 和 掌握 。 

2. 中 断 与 异常 

操作 系统 需要 对 计算 机 系统 中 的 各 种 外 设 进行 管理 ,这 就 需要 CPU 和 外 设 能 够 相互 
通信 才 行 。 一 般 外 设 的 速度 远 慢 于 CPU 的 速度 。 如 果 让 操作 系统 通过 CPU “主动 关心 ”外 
设 的 事件 , 即 采用 通常 的 轮 询 (Polling) 机 制 , 则 太 浪 费 CPU 资源 。 所 以 需要 操作 系统 和 
CPU 能 够 一 起 提供 某 种 机 制 , 让 外 设 在 需要 操作 系统 处 理 外 设 相关 事件 的 时 候 , 能 够 “主动 
通知 ?操作 系统 , 即 打 断 操作 系统 和 应 用 的 正常 执行 ,让 操作 系统 完成 外 设 的 相关 处 理 , 然 后 
再 恢复 操作 系统 和 应 用 的 正常 执行 。 在 操作 系统 中 ,这 种 机 制 称 为 中 断 机 制 。 中 断 机 制 给 
操作 系统 提供 了 处 理 意 外 情况 的 能 力 , 同 时 它 也 是 实现 进程 /线程 抢占 式 调 度 的 一 个 重要 基 
石 。 但 中 断 的 引入 导致 了 对 操作 系统 的 理解 更 加 困难 。 

在 操作 系统 中 ,有 三 种 特殊 的 中 断 事件 。 由 CPU 外 部 设备 引起 的 外 部 事件 如 1/0 中 
断 `. 时 钟 中 断 .控制 台中 断 等 是 异步 产生 的 ( 即 产生 的 时 刻 不 确定 ) ,与 CPU 的 执行 无 关 , 则 
称 之 为 异步 中 断 (Asynchronous Interrupt) 也 称 外 部 中 断 ,简称 中 断 (Interrupt)。 而 把 在 
CPU 执行 指令 期 间 检测 到 不 正常 的 或 非法 的 条 件 ( 如 除 零 错 、 地 址 访问 越界 ) 所 引起 的 内 部 
事件 称 为 同步 中 断 (Synchronous Interrupt) ,也 称 内 部 中 断 ,简称 异常 (Exception)。 把 在 程 
序 中 使 用 请 求 系统 服务 的 系统 调用 而 引发 的 事件 , 称 作 陷入 中 断 (Trap Interrupt) ,也 称 软 
中 断 (Soft Interrupt) ,系统 调用 (System Call) fpr Trap。 在 后 续 实 验 中 会 进一步 讲解 系统 
调用 。 

本 实验 只 描述 保护 模式 下 的 处 理 过 程 。 当 CPU 收 到 中 断 ( 通 过 8259A 完成 ,有 关 
8259A 的 信息 请 看 本 章 附 录 A) 或 者 异常 的 事件 时 , 它 会 暂停 执行 当前 的 程序 或 任务 ,通过 
一 定 的 机 制 跳 转 到 负责 处 理 这 个 信号 的 相关 处 理 例 程 中 ,在 完成 对 这 个 事件 的 处 理 后 再 跳 
回 到 刚才 被 打 断 的 程序 或 任务 中 。 中 断 向 量 和 中 断 服务 例 程 的 对 应 关系 主要 是 由 IDT( 中 
断 描述 符 表 ) 负 责 。 操 作 系 统 在 IDT 中 设置 好 各 种 中 断 向 量 对 应 的 中 断 描述 符 , 并 把 IDT 
的 起 始 地 址 保存 在 IDTR 寄存 器 中 。 在 产生 中 断后 ,CPU 先 根据 IDTR 找到 IDT 的 起 始 地 
址 ,再 根据 中 断 向 量 号 在 IDT 表 中 查询 到 对 应 中 断 服务 例 程 的 起 始 地 址 。 

1) 中 断 描 述 符 表 

中 断 描 述 符 表 (Interrupt Descriptor Table) 把 每 个 中 断 或 异常 编号 和 一 个 指向 中 断 服 
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务 例 程 的 描述 符 联系 起 来 。 同 GDT 一 样 ,IDT 是 一 个 8B 的 描述 符 数组 ,但 IDT 的 第 一 项 
可 以 包含 一 个 描述 符 。CPU 把 中 断 ( 异 常 ) 号 乘 以 8 作为 IDT 的 索引 。IDT 可 以 位 于 内 存 
的 任意 位 置 ,CPU 通过 IDT 寄存 器 (IDTR) 的 内 容 来 寻 址 IDT 的 起 始 地 址 。 指 令 LIDT 
(Load IDT Register) 和 SIDT(Store IDT Register) 用 来 操作 IDTR 。 两 条 指令 都 有 一 个 显 
示 的 操作 数 : 一 个 6B 表示 的 内 存 地 址 。 指 令 的 含义 如 下 。 

(1) LIDT 指令 : 使 用 一 个 包含 线性 地 址 基 址 和 界限 的 内 存 操作 数 来 加 载 IDT。 操 作 
系统 创建 IDT 时 需要 执行 它 来 设 定 IDT 的 起 始 地 址 。 这 条 指令 只 能 在 特权 级 0 执行 (可 参 
见 libs/x86. h 中 的 lidt 函数 实现 ,其 实 就 是 一 条 汇编 指令 ) 。 

(2) SIDT 指令 : 复制 IDTR 的 基 址 和 界限 部 分 到 一 个 内 存 地 址 。 这 条 指令 可 以 在 任 
意 特权 级 执行 。 

IDT 和 IDTR 寄存 器 的 结构 和 关系 如 图 2-9 所 示 。 


IDTR Register 
47 16 15 0 


| IDT Base Address | IDT Limit 


Interrupt 
Descriptor Table(IDT) 


Gate for 
Interrupt #n (n-1*8) 


Gate for 
Interrupt #3 


Gate for 
Interrupt #2 8 


Gate for 
Interrupt #1 


31 0 
图 2-9 IDT 和 IDTR 寄存 器 的 结构 和 关系 图 


在 保护 模式 下 ,最 多 会 存在 256 个 Interrupt/Exception Vectors。 范 围 0 一 31 内 的 
32 个 向 量 被 异常 Exception 和 NMI 使 用 ,但 当前 并 非 所 有 这 32 个 向 量 都 已 经 被 使 用 ,有 几 
个 当前 没有 被 使 用 的 ,请 不 要 擅自 使 用 它们 ,它们 被 保留 ,以 备 将 来 可 能 增加 新 的 
Exception。 范 围 32~255 内 的 向 量 被 保留 给 用 户 定义 的 Interrupts, Intel 没有 定义 ,也 没 
有 保留 这 些 Interrupts。 用 户 可 以 将 它们 用 作 外 部 1/O 设备 中 断 (8259A IRQ) ,或 者 系统 调 
用 (System Call、Software Interrupts) 等 。 

2) IDT Gate Descriptors 

Interrupts/Exceptions 应 该 使 用 Interrupt Gate 和 Trap Gate, 它 们 之 间 的 唯一 区 别 是 : 
当 调 用 Interrupt Gate 时 ,Interrupt 会 被 CPU 自动 禁止 ;而 调用 Trap Gate 时 ,CPU 则 不 会 
去 禁止 或 打开 中 断 ,而 是 保留 它 原来 的 样子 。 在 IDT 中 ,可 以 包含 如 下 3 种 类 型 的 


Descriptor, 


(1) TaskGate Descriptor( 这 里 没有 使 用 ) 。 

(2) InterruptGate Descriptor( 中 断 方式 用 到 ) 。 

(3) TrapGate Descriptor( 系 统 调用 用 到 ) 。 

图 2-10 显示 了 80386 的 任务 门 描述 符 .中 断 门 描述 符 、 陷 阱 门 描述 符 的 格式 。 


31 23 15 7 0 
(Not Used) P [ppLlo 01 01 (Not Used) 4 
Selector (Not Used) 0 
+ 7 i 
(a) 80386 Task Gate 
31 23 15 7 0 
Offset 31..16 p |ppLlo 11 10/0 0 0] (NotUsed) ||4 
Selector Offset 15..0 0 
+ : + 
(b) 80386 Interrupt Gate 
31 23 15 7 0 
T 
Offset 31..16 P |ppL|o 11 11/000] (NotUsed) ||4 
Selector Offset 15..0 0 
A A 
(c) 80386 Trap Gate 


EI 2-10 x86 的 各 种 门 的 格式 


可 参见 kern/mm/mmu. h 中 的 struct gatedesc 数据 结构 对 中 断 描述 符 的 具体 定义 。 

3) 中 断 处理 中 硬件 负责 完成 的 工作 

中 断 服务 例 程 包括 具体 负责 处 理 中 断 ( 异 常 ) 的 代码 ,这 些 代码 是 操作 系统 的 重要 组 成 
部 分 。 需 要 注意 区 别 的 是 ,有 两 个 硬件 中 断 处 理 。 

(1) 硬件 中 断 处 理 过 程 1( 起 始 ): 从 CPU 收 到 中 断 事件 后 , 打 断 当前 程序 或 任务 的 执 
45 ,根据 某 种 机 制 跳 转 到 中 断 服务 例 程 去 执行 。 其 具体 流程 如 下 。 

O CPU 在 执行 完 当前 程序 的 每 一 条 指令 后 ,都 会 去 确认 在 执行 刚才 的 指令 过 程 中 中 
断 控制 器 (如 8259A) 是 否 发 送 中 断 请 求 过 来 ,如 果 有 那么 CPU 就 会 在 相应 的 时 钟 脉冲 到 来 
时 从 总 线 上 读 取 中 断 请 求 对 应 的 中 断 向 量 。 

@ CPU 根据 得 到 的 中 断 向 量 (以 此 为 索引 ) 到 IDT 中 找到 该 向 量 对 应 的 中 断 描述 符 ， 
中 断 描述 符 里 保存 着 中 断 服务 例 程 的 段 选择 子 。 

© CPU {E IDT 查 到 的 中 断 服务 例 程 的 段 选择 子 从 GDT 中 取得 相应 的 段 描述 符 , 段 
描述 符 中 保存 了 中 断 服务 例 程 的 段 基 址 和 属性 信息 ,此 时 CPU 就 得 到 了 中 断 服务 例 程 的 
起 始 地 址 ,并 跳 转 到 该 地 址 。 

@ CPU 会 根据 CPL 和 中 断 服务 例 程 的 段 描述 符 的 DPL 信息 确认 是 否 发 生 了 特权 级 
的 转换 。 比 如 当前 程序 正 运 行 在 用 户 态 ,而 中 断 程 序 运 行 在 内 核 态 , 则 意味 着 发 生 了 特权 级 
的 转换 。 这 时 CPU 会 从 当前 程序 的 TSS 信息 (该 信息 在 内 存 中 的 起 始 地 址 存在 TR 寄存 
器 中 ) 中 取得 该 程序 的 内 核 栈 地 址 , 即 包括 内 核 态 的 SS 和 ESP 的 值 ,并 立即 将 系统 当前 使 
用 的 栈 切换 成 新 的 内 核 栈 。 这 个 栈 就 是 即将 运行 的 中 断 服务 程 序 要 使 用 的 栈 。 紧 接着 就 将 
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当前 程序 使 用 的 用 户 态 的 SS 和 ESP 压 到 新 的 内 核 栈 中 保存 起 来 。 

© CPU 需要 开始 保存 当前 被 打 断 的 程序 的 现场 ( 即 一 些 寄 存 器 的 值 ), 以 便 将 来 恢复 
被 打 断 的 程序 继续 执行 。 这 需要 利用 内 核 栈 来 保存 相关 现场 信息 , 即 依次 压 和 人 当前 被 打 断 
程序 使 用 的 Eflags, CS, EIP, Error, Code( 如 果 是 有 错误 码 的 异常 ) 信 息 。 

© CPU 利用 中 断 服务 例 程 的 段 描 述 符 将 其 第 一 条 指令 的 地 址 加 载 到 CS 和 EIP 寄存 
器 中 ,开始 执行 中 断 服务 例 程 。 这 意味 着 先前 的 程序 被 暂停 执行 ,中 断 服务 程序 正式 开始 
THE. 

(2) 硬件 中 断 处 理 过 程 2( 结 束 ) : 每 个 中 断 服 务 例 程 在 有 中 断 处 理工 作 完 成 后 需要 通 
过 IRET( 或 IRETD) 指 令 恢 复 被 打 断 的 程序 的 执行 。CPU 执行 IRET 指令 的 具体 过 程 
如 下 。 

O 程序 执行 这 条 IRET 指令 时 ,首先 会 从 内 核 栈 里 弹出 先前 保存 的 被 打 断 的 程序 的 现 
场 信息 , 即 Eflags、CS、EIP 重新 开始 执行 。 

© 如 果 存 在 特权 级 转换 (从 内 核 态 转换 到 用 户 态 ) , 则 还 需要 从 内 核 栈 中 弹出 用 户 态 栈 
的 SS 和 ESP, 这 样 也 意味 着 栈 也 被 切换 回 原先 使 用 的 用 户 态 的 栈 了 。 

@ 如 果 此 次 处 理 的 是 带 有 错误 码 (Error Code) 的 异常 ,CPU 在 恢复 先前 程序 的 现场 
时 ,并 不 会 弹出 Error Code。 这 一 步 需要 通过 软件 完成 , 即 要求 相 关 的 中 断 服务 例 程 在 调用 
IRET 返回 之 前 添加 出 栈 代 码 主动 弹出 Error Code。 

图 2-11 显示 了 从 中 断 向 量 到 GDT 中 相应 中 断 服务 程序 起 始 位 置 的 定位 方式 。 
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图 2-11 中 断 向 量 与 中 断 服务 例 程 起 始 地 址 的 关系 


。61 。 


4) 中 断 产 生 后 堆栈 的 变化 
图 2-12 显示 了 给 出 相同 特权 级 和 不 同 特权 级 情况 下 中 断 产生 后 的 堆栈 变化 示 
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图 2-12 相同 特权 级 和 不 同 特权 级 情况 下 中 断 产 生 后 的 堆栈 变化 示意 图 


5) 中 断 处 理 的 特权 级 转换 

中 断 处 理 的 特权 级 转换 是 通过 门 描述 符 (Gate Descriptor) 和 相关 指令 来 完成 的 。 一 个 
门 描述 符 就 是 一 个 系统 类 型 的 段 描述 符 , 一 共有 4 个 子 类 型 : 调用 门 描述 符 (Call-gate 
Descriptor), 中断 门 描述 符 (Interruptrgate Descriptor)、 陷 阱 门 描述 符 (Trap-gate 
Descriptor) 和 任务 门 描述 符 (Task-gate Descriptor) 。 与 中 断 处 理 相关 的 是 中 断 门 描述 符 和 
陷阱 门 描述 符 。 这 些 门 描述 符 被 存储 在 中 断 描述 符 表 (Interrupt Descriptor Table, IDT) 
H. CPU 把 中 断 向 量 作 为 IDT 表 项 的 索引 ,用 来 指出 当中 断 发 生 时 使 用 哪 一 个 门 描述 符 
来 处 理 中 断 。 中 断 门 描述 符 和 陷阱 门 描述 符 几 乎 是 一 样 的 。 中 断 发 生 时 实施 特权 检查 的 过 
程 如 图 2-13 所 示 。 

门 中 的 DPL 和 段 选择 符 一 起 控制 着 访问 ,同时 , 段 选择 符 结合 偏 移 量 (Offset) 指 出 了 

* 62° 
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Interrupt-gate/Trap-gate Descriptor 


图 2-13 中 断 发 生 时 实施 特权 检查 的 过 程 


中 断 处 理 例 程 的 入 口 点 。 内 核 一 般 在 门 描述 符 中 填 人 内 核 代码 段 的 段 选择 子 。 产 生 中 断 
后 ,CPU 一 定 不 会 将 运行 控制 从 高 特权 环 转向 低 特权 环 ,特权 级 必须 要 么 保持 不 变 ( 当 操作 
系统 内 核 自己 被 中 断 的 时 候 ) ,或 被 提升 ( 当 用 户 态 程序 被 中 断 的 时 候 ) 。 无 论 哪 一 种 情况 ， 
作为 结果 的 CPL 必须 等 于 目的 代码 段 的 DPL。 如 果 CPL 发 生 了 改变 ,一 个 堆栈 切换 操作 
(通过 TSS 完成 ) 就 会 发 生 。 如 果 中 断 是 被 用 户 态 程序 中 的 指令 所 触发 的 (比如 软件 执行 
INT n 生产 的 中 断 ) ,还 会 增加 一 个 额外 的 检查 : 门 的 DPL 必须 具有 与 CPL 相同 或 更 低 的 
特权 。 这 样 就 防止 了 用 户 代码 随意 触发 中 断 。 如 果 这 些 检查 失败 ,会 产生 一 个 一 般 保 护 异 
常 (General-protection Exception) 。 

3. labl 中 对 中 断 的 处 理 实现 

1) 外 设 基本 初始 化 设置 

Labl 中 实现 了 中 断 初始 化 和 对 键盘 .串口 ,时钟 外 设 进行 中 断 处 理 。 串 口 的 初始 化 函 
数 serial_init( 位 于 /kern/driver/console. c) 中 涉及 中 断 初始 化 工作 很 简单 : 


// 使 能 串口 1 接收 字符 后 产生 中 断 
outb (COML+ OM IER, OM IFR RDI); 


// 通 过 中 断 控制 器 使 能 串口 1 中 断 
pic enable (IRQ CMI); 


键盘 的 初始 化 函数 kbd_init( 位 于 kern/driver/console. c 中) 完成 了 对 键盘 的 中 断 初 始 
ang. 


化 工作 ,具体 操作 更 加 简单 : 


// 通 过 中 断 控制 器 使 能 键盘 输入 中 断 

pic enable (IMQ KBD); 

时 钟 是 一 种 有 着 特殊 作用 的 外 设 ,其 作用 并 不 仅仅 是 计时 。 在 后 续 章 节 中 将 讲 到 , 正 是 
由 于 有 了 规律 的 时 钟 中 断 , 才 使 得 无 论 当前 CPU 运行 在 哪里 ,操作 系统 都 可 以 在 预先 确定 
的 时 间 点 上 获得 CPU 的 控制 权 。 这 样 当 一 个 应 用 程序 运行 了 一 定时 间 后 ,操作 系统 会 通 
过 时 钟 中 断 获 得 CPU 的 控制 权 ,并 可 把 CPU 资源 让 给 更 需要 CPU 的 其 他 应 用 程序 。 时 
钟 的 初始 化 函数 clock_init( 位 于 kern/driver/clock. c 中 ) 完 成 了 对 时 钟 控制 器 8253 的 初 
始 化 : 


// 设 置 时 钟 每 秒 中 断 100 次 
outb(IO_TIMR1, TIMER DIV(100) % 256); 
outb(IO_TIMERI, TIMER DIV(100) / 256); 
// 通 过 中 断 控制 器 使 能 时 钟 中 断 
pic_enable (IRQ_TIMER) ; 
2) 中 断 初始 化 设置 
操作 系统 如 果 要 正确 处 理 各 种 不 同 的 中 断 事件 ,就 需要 安排 应 该 由 哪个 中 断 服务 例 程 
负责 处 理 特定 的 中 断 事件 。 系 统 将 所 有 的 中 断 事件 统一 进行 编号 (0 一 255) ,这 个 编号 称 为 
中 断 向 量 。 以 ucore 为 例 ,操作 系统 内 核 启动 以 后 ,会 通过 idt_init 函数 初始 化 idt 表 ( 参 见 
trap. c) ,而 其 中 vectors 中 存储 了 中 断 处 理 程序 的 入口 地 址 。vectors 定义 在 vector. S 文件 
中 ,通过 一 个 工具 程序 vector. c 生成 。 其 中 仅 有 System call 中 断 的 权限 为 用 户 权限 (CDPL_ 
USER) , 即 仅 能 够 使 用 int 0x30 指令 。 此 外 还 有 对 tickslock 的 初始 化 ,该 锁 用 于 处 理 时 钟 
中 断 。 
vector. S 文件 通过 vectors. c 自动 生成 ,其 中 定义 了 每 个 中 断 的 入口 程序 和 入 口 地址 
(保存 在 vectors 数组 中 )。 其 中 ,中 断 可 以 分 成 两 类 : 一 类 是 压 人 错误 编码 的 (Error 
Code) , 另 一 类 不 压 人 错误 编码 。 对 于 第 二 类 ,vector. S 自动 压 人 一 个 0。 此 外 ,还 会 压 人 相 
应 中 断 的 中 断 号 。 在 压 人 两 个 必要 的 参数 之 后 ,中 断 处 理 函 数 跳 转 到 统一 的 人 口 
alltraps 处 。 
3) 中 断 的 处 理 过 程 
trap 函数 (定义 在 trap.c 中 ) 是 对 中 断 进行 处 理 的 过 程 ,所 有 的 中 断 在 经 过 中 断 入 口 函 
数 __alltraps 预 处 理 后 (定义 在 trapasm. S 中 ) ,都 会 跳 转 到 这 里 。 在 处 理 过 程 中 ,根据 不 同 
的 中 断 类 型 ,进行 相应 的 处 理 。 在 相应 的 处 理 过 程 结束 以 后 ,trap 将 会 返回 ,被 中 断 的 程序 
会 继续 运行 。 整 个 中 断 处 理 流程 大 致 如 图 2-14 所 示 。 
至 此 ,对 整个 labl 中 的 主要 部 分 的 背景 知识 和 实现 进行 了 阅 述 。 请 大 家 能 够 根据 前 面 
的 练习 要 求 完 成 所 有 的 练习 。 
Re 


trapasm. S 
(1) 产生 中 断后 ,CPU 跳 转 到 相应 的 中 断 处 理 
人 口 (Vectors), 并 在 栈 中 压 入 相应 的 error_code( 是 
否 存在 与 异常 号 相关 ) 以 及 trap_no, 然 后 跳 转 到 
alltraps 函数 人 口 。 
注意 : 此 处 的 跳 转 是 jump 过 程 


(high) | ... 
产生 中 断 时 的 eip 一 | eip 


error_code 


esp—> | trap_no 


(low) 


在 栈 中 保存 当前 被 打 断 程序 的 trapframe 结构 ( 参 
见 过 程 trapasm. S) 。 设 置 kernel( 内 核 ) 的 数据 段 寄 存 
器 ,最 后 压 人 esp, 作 为 trap 函数 参数 (structtrapframe 
x tf) 并 跳 转 到 中 断 处 理 函 数 trap 处 : 

注意 : 此 时 的 跳 转 是 call 调用 ,会 压 入 返回 地 址 
eip, 注 意 区 分 此 处 eip 与 trapframe 中 的 eip: 

trapframe 的 结构 为 


Struct trapframe 观察 trapframe 结 
{ 构 与 中 断 产生 过 程 的 压 
uint edi; 栈 顺 序 。 

uint esi; 需要 明确 pushal 
uint ebp; 指令 都 保存 了 哪些 寄存 
器 ,按照 什么 顺序 ? 
ushort es; 

ushort paddingl; 

ushort ds; 

ushort padding2; 

uint trapno; < trap_no 

uint err; < trap_error 

uint eip; 一 产生 中 断 处 的 eip 

} 


进入 trap 函数 ,对 中 断 进 行 相应 的 处 理 : 


(3) 结束 trap 函数 的 执行 后 ,通过 ret 指令 返回 
到 alltraps 执行 过 程 。 

从 栈 中 恢复 所 有 寄存 器 的 值 。 

调整 esp 的 值 : 跳 过 栈 中 的 trap_no 与 error_ 
code. ffi esp 指向 中 断 返 回 eip, 通 过 iret 调用 恢复 cs, 
eflag 以 及 eip, 继 续 执行 。 


trap. € 


(2) 详细 的 中 断 分 类 以 及 处 理 流程 如 下 : 

根据 中 断 号 对 不 同 的 中 断 进行 处 理 。 其 中 ， 
若 中 断 号 是 IRQ_OFFSET 十 IRQ_TIMER, 则 为 
时 钟 中 断 , 则 ticks 将 增加 1 。 

若 中 断 号 是 IRQ_OFFSET+ IRQ_COM1, , 则 
为 串口 中 断 , 则 显示 收 到 的 字符 。 

若 中 断 号 是 IRQ_OFFSET 十 IRQ_KBD, 则 
为 键盘 中 断 , 则 显示 收 到 的 字符 。 

若 为 其 他 中 断 且 产生 在 内 核 状态 , 则 挂 起 


图 2-14 ucore 中 断 处 理 流程 
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2.4 实验 报告 要 求 


从 网 站 上 下 载 labl. tar. bz2 后 ,解压 得 到 代码 目录 labl ,完成 实验 。 在 实践 中 完成 实验 
的 各 个 练习 。 在 报告 中 回答 所 有 练习 中 提出 的 问题 。 实 验 报告 文档 命名 为 labl- 学 生 ID. 
odt 或 labl- 学 生 ID. txt。 推 荐 用 txt 格式 , 即 基本 文本 格式 。 对 于 labl 中 编程 任务 ,完成 编 
写 之 后 ,在 labl 目录 下 执行 make handin 任务 , 即 会 自动 生成 labl-handin. tar. gz 文件 。 建 
立 一 个 目录 ,名 字 为 labl_result, 将 实验 报告 文档 和 之 前 生成 的 handin 文件 放 在 该 目录 下 。 
然后 用 tar 软件 压缩 打包 此 目录 ,并 命名 为 labl- 学 生 ID. tar. bz2( 在 labl_result 的 上 层 目 
录 下 执行 “tar jcf labl- ID. tar. bz2 labl_result“ 即 可 )。 最 后 请 一 定 提 前 或 按时 提交 到 
网 络 学 堂上 。 

注意 要 有 labl 的 注释 ,代码 中 所 有 需要 完成 的 地 方 (challenge 除外 ) 都 有 labl 和 “Your 
Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 "Your Code” 替 换 为 自己 的 学 号 ,并 且 将 
所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 


辅助 材料 A 关于 A20 Gate 


参考 “关于 A20 Gate” http;//hengch. blog. 163. com/blog/static/107800672009013104623747/ 
和 激活 A20 地 址 线 详 解 ”(http://wenku. baidu. com/view/d6efe68fec22bed126{f0c00. html) 。 

Intel 早期 的 8086 CPU 提供 了 20 根 地 址 线 ,可 寻 址 空间 范围 即 0 ~ 2” (00000H ~ 
FFFFFH) 的 1MB 内 存 空 间 。 但 8086 的 数据 处 理 位 宽 为 16 位 ,无 法 直接 寻 址 1MB 内 存 空 
间 ,所 以 8086 提供 了 段 地 址 加 偏 移 地 址 的 地 址 转换 机 制 。PC 的 寻 址 结构 是 Segment; 
Offset, Segment 和 Offset 都 是 16 位 的 寄存 器 .最 大 值 是 0ffffh ,换算 成 物理 地 址 的 计算 方 
法 是 把 Segment 左 移 4 位 ,再 加 上 Offset, 所 以 Segment:Offset 所 能 表达 的 寻 址 空间 最 大 
应 为 0ffffoh 十 Offffh 王 10ffefh( 前 面 的 offffh 是 Segment =Offffh 并 向 左 移动 4 位 的 结果 ,后 
面 的 offffh 是 可 能 的 最 大 Offset) ,这 个 计算 出 的 10ffefh 是 多 大 呢 ? 大 约 是 1088KB, 就 是 
说 ,Segment:Offset 的 地 址 表示 能 力 , 超 过 了 20 位 地 址 线 的 物理 寻 址 能 力 。 所 以 当 寻 址 到 
超过 1MB 的 内 存 时 ,会 发 生 * 回 卷 ”( 不 会 发 生 异 常 ) 。 但 下 一 代 的 基于 Intel 80286 CPU 的 
PC AT 计算 机 系统 提供 了 24 根 地 址 线 , 这 样 CPU 的 寻 址 范围 变 为 22 王 16MB, 同 时 也 提 
供 了 保护 模式 ,可 以 访问 到 1MB 以 上 的 内 存 了 ,此 时 如 果 遇 到 “ 寻 址 超过 1MB” 的 情况 , 系 
统 不 会 再 “ 回 卷 * 了 ,这 就 造成 了 向 下 不 兼容 。 为 了 保持 完全 的 向 下 兼容 性 ,IBM 决定 在 
PC AT 计 算 机 系统 上 加 个 硬件 逻辑 ,来 模仿 以 上 的 回 绕 特征 ,于 是 出 现 了 A20 Gate。 他 们 
的 方法 就 是 把 A20 地 址 线 控制 和 键盘 控制 器 的 一 个 输出 进行 AND 操作 ,这 样 来 控制 
A20 地 址 线 的 打开 (使 能 ) 和 关闭 (屏蔽 /禁止 )。 一 开始 时 A20 地 址 线 控制 是 被 屏蔽 的 (总 
为 0) ,直到 系统 软件 通过 一 定 的 10 操作 去 打开 它 ( 参 看 bootasm. S)。 很 显然 ,在 实 模 式 
下 要 访问 高 端 内 存 区 ,这 个 开关 必须 打开 ,在 保护 模式 下 ,由 于 使 用 32 位 地 址 线 , 如果 
A20 恒 等 于 0, 那么 系统 只 能 访问 奇数 兆 的 内 存 , 即 只 能 访问 0 一 1M、2~~3M、4 一 5M…, 这 
显然 是 不 行 的 ,所 以 在 保护 模式 下 ,这 个 开关 也 必须 打开 。 

当 A20 地 址 线 控制 禁止 时 , 则 程序 就 像 在 8086 中 运行 ,1MB 以 上 的 地 址 是 不 可 访问 
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的 。 在 保护 模式 下 A20 地 址 线 控制 是 要 打开 的 。 为 了 使 能 所 有 地 址 位 的 寻 址 能 力 , 必 须 向 
键盘 控制 器 8042 发 送 一 个 命令 。 键 盘 控制 器 8042 将 会 将 它 的 某 个 输出 引 脚 的 输出 置 高 电 
平 ,作为 A20 地 址 线 控 制 的 输入 。 一 旦 设置 成 功 之 后 ,内 存 将 不 会 再 被 绕 回 (Memory 
Wrapping) ,这 样 就 可 以 寻 址 整个 286 的 16MB 内 存 ,或 者 是 寻 址 80386 级 别 机 器 的 所 有 
4G 内 存 了 。 

键盘 控制 器 8042 的 逻辑 结构 图 如 图 2-15 所 示 。 从 软件 的 角度 来 看 ,如 何 控制 8042 Wé? 
早期 的 PC ,控制 键盘 有 一 个 单独 的 单片机 8042 , 现 如 今 这 个 芯片 已 经 给 集成 到 了 其 他 大 片 
子 中 ,但 其 功能 和 使 用 方法 还 是 一 样 , 当 PC 刚刚 出 现 A20 Gate 的 时 候 , 估 计 为 节省 硬件 设 
计 成 本 ,工程 师 使 用 这 个 8042 键盘 控制 器 来 控制 A20 Gate, 但 A20 Gate 与 键盘 管理 没有 
一 点 关系 。 下 面 先 从 软件 的 角度 简单 介绍 一 下 8042 这 个 芯 


输入 端口 P1 
一 P10|- -一 NC 
[| soeu 一 P11 — NC 
P12 — NC 
ROM&RAM k= P13 =— NC 


K P14| 一 系统 板 RAM 
PIS 一 一 跨 接 器 安装 
P16 ~ 一 显示 器 类 型 


aien (0x60) 输 出 缓冲 e P17|- ”键盘 锁定 
数 | — ooma +] 输入 端口 P2 
据 P20 上 一 一 系统 复位 
总 P21|- 一 一 A20 选 通 
线 | 一 一 (0x64) 输 入 缓冲 ”上 一 一 | P22}—= NC 
= P23 上 一 一 NC 
三 P24 e 输出 缓冲 器 满 IRQD 
一 一 (0x64) 状 态 寄存 器 KJ P25|- 一 一 输入 缓冲 器 空 (未 用 ) 
P26 键盘 时 钟 (双向 ) 
P27 键盘 数据 (双向 ) 
SS 地 址 、 读 写 ‘TO 
控制 逻辑 测试 
Tl 


图 2-15 键盘 控制 器 8042 的 逻辑 结构 图 


8042 键盘 控制 器 的 I/O 端口 是 0x60 一 0x6f, 实 际 上 ,IBM PC/AT 使 用 的 只 有 0x60 和 
0x64 两 个 端口 (0x61、0x62 和 0x63 用 于 与 XT A). 8042 通过 这 些 端 口 给 键盘 控制 器 或 
键盘 发 送 命令 或 读 取 状 态 。 输 出 端口 P2 用 于 特定 目的 。 位 0(P20 引 脚 ) 用 于 实现 CPU 复 
位 操作 ,位 1(P21 引 脚 ) 用 户 控制 A20 信号 线 的 开启 与 否 。 系 统 向 输入 缓冲 (端口 0x64) 写 
入 一 个 字 节 , 即 发 送 一 个 键盘 控制 器 命令 ,可 以 带 一 个 参数 。 参 数 是 通过 0x60 端口 发 送 的 。 
命令 的 返回 值 也 从 端口 0x60 去 读 。8042 有 4 个 寄存 器 。 

(1) 1 个 8 位 长 的 Input Buffer: Write-Only。 

(2) 1 个 8 位 长 的 Output Buffer: Read-Only。 

(3) 1 个 8 位 长 的 Status Register; Read-Only, 

(4) 1 个 8 位 长 的 Control Register: Read/ Write。 

有 两 个 端口 地 址 : 60h 和 64h, 有 关 对 它们 的 读 写 操作 描述 如 下 。 
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(1) 7 60h 端口 , 读 Output Buffer, 

(2) & 60h 端口 , 写 Input Buffer. 

(3) i¥ 64h 端口 , 读 Status Register. 

(4) 操作 Control Register ,首先 要 向 64h 端口 写 一 个 命令 (20h 为 读 命令 ,60h 为 写 命 
令 ), 然 后 根据 命令 从 60h 端口 读 出 Control Register 的 数据 或 者 向 60h 端口 写 人 Control 
Register 的 数据 (64h 端口 还 可 以 接受 许多 其 他 的 命令 ) 。 

Status Register 的 定义 (要 用 bit 0 和 bit 1) 如 下 : 


Output Register(60h) 中 有 数据 

Input Register (60h/64h) 有 数据 

系统 标志 (上 电 复 位 后 被 置 为 0) 

data in input register is command (1) or data (0) 

1= keyboard enabled, 0= keyboard disabled (via switch) 
1= transmit timeout (data transmit not complete) 

l= receive timeout (data transmit not complete) 

1=even parity rec'd, 0= odd parity rec'd (should be odd) 
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除了 这 些 资 源 外 ,8042 还 有 3 个 内 部 端口 : Input Port, Outport Port 和 Test Port, 这 
三 个 端口 的 操作 都 是 通过 向 64h 发 送 命令 ,然后 在 60h 进行 读 写 的 方式 完成 ,其 中 本 文 要 操 
作 的 A20 Gate 被 定义 在 Output Port 的 bit 1 上 ,所 以 有 必要 对 Outport Port 的 操作 及 端 
口 定义 做 一 个 说 明 。 

(1) 读 Output Port: 向 64h 发 送 0d0h 命令 ,然后 从 60h 读 取 Output Port 的 内 容 。 

(2) 写 Output Port: 向 64h 发 送 0dlh 命令 ,然后 向 60h A Output Port 的 数据 。 

(3) 禁止 键盘 操作 命令 : 向 64h 发 送 0adh。 

(A) 打开 键盘 操作 命令 : 向 64h RŽ 0aeh。 

有 了 这 些 命令 和 知识 ,就 可 以 实现 操作 A20 Gate 从 实 模式 切换 到 保护 模式 了 。 

理论 上 讲 ,我们 只 要 操作 8042 芯片 的 输出 端口 (64h) 的 bit 1, 就 可 以 控制 A20 Gate, 但 
实际 上 , 当 准 备 向 8042 的 输入 缓冲 区 里 写 数 据 时 ,可 能 里 面 还 有 其 他 数据 没有 处 理 , 所 以 ， 
我 们 要 首先 禁止 键盘 操作 ,同时 等 待 数 据 缓冲 区 中 没有 数据 以 后 ,才能 真正 地 去 操作 8042 
打开 或 者 关闭 A20 Gate。 打 开 A20 Gate 的 具体 步 又 大 致 如 下 (参考 bootasm. S), 

(1) 等 待 8042 Input Buffer 为 空 。 

(2) 发 送 Write 8042 Output Port (P2) 命 令 到 8042 Input Buffer. 

(3) 等 待 8042 Input Buffer 为 空 。 

(4) 将 8042 Output Port(P2) 得 到 字 节 的 第 2 位 置 1, 然 后 写 和 人 8042 Input Buffer, 


辅助 材料 B ”启动 后 第 一 条 执行 的 指令 


参考 IA-32 Intel Architecture Software Developer's Manual Volume 3; System Programming 
Guide Section 9. 1. 4, 
. 68 。 


9.1.4 First Instruction Executed 

The first instruction that is fetched and executed following a hardware reset is located at 
physical address FFFFFFFOH. This address is 16 bytes below the processor's uppermost 
physical address. The EPROM containing the softwareinitialization code must be 
located at this address. 

The address FFFFFFFOH is beyond the 1-MByte addressable range of the 
processor while in realaddress mode. The processor is initialized to this starting 
address as follows. The CS register has two parts: the visible segment selector part 
and the hidden base address part. In realaddress mode, the base address is normally 
formed by shifting the 16-bit segment selector value 4 bits to the left to produce a 
20-bit base address. However. during a hardware reset, the segment selector in the CS 
register is loaded with FOOOH and the base address is loaded with FFFF0000H. The 
starting address is thus formed by adding the base address to the value in the EIP 
register (that is, FFFFO000+FFFOH=FFFFFFFOH). 

The first time the CS register is loaded with a new value after a hardware reset, 
the processor will follow the normal rule for address translation in real-address mode 
(that is, [CS base address = CS segment selector * 16]). To insure that the base 
address in the CS register remains unchanged until the EPROM based softwareinitialization 
code is completed, the code must not contain a far jump or far call or allow an interrupt to 


occur (which would cause the CS selector value to be changed). 


. 69 。 


435 实验 2: 物理 内 存 管理 


3.1 实验 目的 


(1) 理解 基于 段 页 式 内 存 地 址 的 转换 机 制 。 
(2) 理解 页 表 的 建立 和 使 用 方法 。 
(3) 理解 物理 内 存 的 管理 方法 。 


3.2 实验 内 容 


实验 2 过 后 大 家 做 出 来 了 一 个 可 以 启动 的 系统 ,实验 2 主要 涉及 操作 系统 的 物理 内 存 
管理 。 操 作 系统 为 了 使 用 内 存 ,还 需 高 效 地 管理 内 存 资 源 。 在 实验 2 中 大 家 会 了 解 并 且 自 
己 动 手 完成 一 个 简单 的 物理 内 存 管理 系统 。 

本 次 实验 包含 三 个 部 分 。 首 先 了 解 如 何 发 现 系 统 中 的 物理 内 存 ;然后 了 解 如 何 建立 对 
物理 内 存 的 初步 管理 , 即 了 解 连续 物理 内 存 管理 ;最 后 了 解 页 表 相 关 的 操作 , 即 如 何 建 立 页 
表 来 实现 虚拟 内 存 到 物理 内 存 之 间 的 映射 ,对 段 页 式 内 存 管理 机 制 有 一 个 比较 全 面 的 了 解 。 
本 实验 里 面 实现 的 内 存 管理 非常 基本 ,并 没有 涉及 对 实际 机 器 的 优化 ,比如 ,针对 Cache 的 
优化 等 。 实 际 操作 系统 (如 Linux 等 ) 中 的 内 存 管 理 是 相当 复杂 的 。 如 果 大 家 有 兴趣 ,尝试 
完成 扩展 练习 。 


3.2.1 A 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1。 请 把 要 做 的 实验 1 的 代码 填 入 本 实验 中 代码 有 labl 的 注释 相应 
部 分 。 

提示 : 可 采用 merge 工具 ,比如 kdiff3、Eclipse 中 的 diff/merge 工具 、Understand 中 的 
diff/merge 工具 等 。 

练习 1: 实现 firstfit 连续 物理 内 存 分 配 算法 (需要 编程 ) 。 

在 实现 firstfit 内 存 分 配 算法 的 回收 函数 时 ,要 考虑 地 址 连续 的 空闲 块 之 间 的 合并 
操作 。 

提示 : 在 建立 空闲 页 块 链表 时 ,需要 按照 空闲 页 块 起 始 地 址 来 排序 ,形成 一 个 有 序 的 链 
表 。 可 能 会 修改 default_pmm. c 中 的 default_init,default_init_memmap, default_alloc_ 
pages,default_free_pages 等 相关 函数 。 请 仔细 查看 和 理解 default_pmm.c 中 的 注释 。 

练习 2: 实现 寻找 虚拟 地 址 对 应 的 页 表 项 (需要 编程 ) 。 

通过 设置 页 表 和 对 应 的 页 表 项 ,可 建立 虚拟 内 存 地 址 和 物理 内 存 地 址 的 对 应 关系 。 其 
中 的 get_pte 函数 是 设置 页 表 项 环节 中 的 一 个 重要 步骤 。 此 函数 找到 一 个 虚 地 址 对 应 的 二 
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级 页 表 项 的 内 核 虚 地 址 ,如 果 此 二 级 页 表 项 不 存在 , 则 分 配 一 个 包含 此 项 的 二 级 页 表 。 本 练 
习 需 要 补 全 位 于 kern/mm/pmm. c 中 的 get_pte 函数 ,实现 其 功能 。 请 仔细 查看 和 理解 
get_pte 函数 中 的 注释 。get_pte 函数 的 调用 关系 图 如 图 3-1 所 示 。 


boot map segment 
get_page ~ 从 


kern_init 上 一 一 pmm init — check pgdir get_pte 
page_remove 7) 


check_boot_pgdir 上 一 一 page_insert 


图 3-1 get_pte 函数 的 调用 关系 图 


练习 3: 释放 某 虚 地 址 所 在 的 页 并 取消 对 应 二 级 页 表 项 的 映射 (需要 编程 ) 。 

当 释 放 一 个 包含 某 虚 地 址 的 物理 内 存 页 时 ,需要 让 对 应 此 物理 内 存 页 的 管理 数据 结构 
Page 做 相关 的 清除 处 理 , 使 得 此 物理 内 存 页 成 为 空闲 ;另外 还 需 把 表示 虚 地 址 与 物理 地 址 
对 应 关系 的 二 级 页 表 项 清除 。 请 仔细 查看 和 理解 page_remove_pte 函数 中 的 注释 。 为 此 ， 
需要 补 全 在 kern/mm/pmm. c 中 的 page_remove_pte 图 数 。page_remove_pte 函数 的 调用 


关系 图 如 图 3-2 所 示 。 
一 一 page_remove 
page_remove_pte 
page_insert 


图 3-2 page_remove_pte 函数 的 调用 关系 图 


check_pgdir 


pmm_init 


check_boot_pgdir 


扩展 练习 Challenge: 任意 大 小 的 内 存单 元 slub 分 配 算法 (需要 编程 ) 。 

如 果 觉 得 上 述 练习 难度 不 够 ,可 考虑 完成 此 扩展 练习 。 实 现 两 层 架构 的 高 效 内 存单 元 
分 配 ,第 一 层 是 基于 页 大 小 的 内 存 分 配 , 第 二 层 是 在 第 一 层 基 础 上 实现 基于 任意 大 小 的 内 存 
分 配 。 例 如 ,如 果 连 续 分 配 8 个 16B 的 内 存 块 , 当 分 配 完 毕 后 ,实际 只 消耗 了 一 个 空闲 物理 
页 。 要 求 时 空 都 高 效 ,可 参考 slub 算法 来 实现 ,可 简化 实现 ,能 够 体现 其 主体 思想 即 可 。 要 
求 有 设计 文档 。slub 的 相关 网 页 是 http://www. ibm. com/developerworks/cn/linux/l-en- 
slub/ 。 完 成 Challenge 的 同学 可 单独 提交 Challenge. 


3.2.2 项 目 组 成 


目录 结构 图 如 图 3-3 所 示 。 
相对 与 实验 1, 实 验 2 主要 增加 和 修改 的 文件 有 bootasm. S、entry. S,init. c.default_ 
pmm. c.default_pmm. h,pmm. c,pmm. hsync. h atomic. h, list. h 和 kernel. Id。 主要 改动 如 下 。 
(1) boot/bootasm. S: 增加 了 对 计算 机 系统 中 物理 内 存 布 局 的 探测 功能 。 
(2) kern/init/entry. S: 根据 临时 段 表 重新 暂时 建立 好 新 的 段 空 间 , 为 进行 分 页 做 好 
准备 。 
7p ws 


-- boot 
-- asm.h 
-- bootasm.S 
*-- bootmain.c 
-- kern 
-- init 
-- entry.S 
`=- init.c 
--mm 
-- default_pmm.c 
-- default_pmm.h 
-- memlayout.h 
-- mmu.h 
-- pmm.c 
*-- pmm.h 
-- sync 
`=- syne.h 
`=- trap 
-- trap.c 
-- trapentry.S 
-- trap.h 
`=- vectors.S 

-- libs 

|-- atomic.h 

|-- list.h 
`=- tools 
|-- kernel.Id 


图 3-3 目录 结构 图 


(3) kern/mm/default_pmm. [ch]; 提供 基本 的 基于 链表 方法 的 物理 内 存 管理 (分 配 单 
位 为 页 , 即 4096B)。 

(4) kern/mm/pmm. [ch]; pmm. h 定义 物 理 内 存 管理 类 框架 struct pmm_manager, 基 
于 此 通用 框架 可 以 实现 不 同 的 物理 内 存 管理 策略 和 算法 (default_pmm. [ch] 实现 了 一 个 基 
于 此 框架 的 简单 物理 内 存 管 理 策略 ) ;pmm.c 包含 了 对 此 物理 内 存 管理 类 框架 的 访问 ,以 及 
与 建立 .修改 .访问 页 表 相 关 的 各 种 函数 实现 。 

(5) kern/sync/sync. h: 为 确保 内 存 管 理 修改 相关 数据 时 不 被 中 断 打 断 ,提供 两 个 功 
能 ,一 个 是 保存 eflag 寄存 器 中 的 中 断 屏 项 位 信息 并 屏蔽 中 断 的 功能 , 另 一 个 是 根据 保存 的 
中 断 屏 项 位 信息 来 使 能 中 断 的 功能 。 

(6) libs/list. h: 定义 了 通用 双向 链表 结构 以 及 相关 的 查找 .插入 等 基本 操作 ,这 是 建立 
基于 链表 方法 的 物理 内 存 管理 (以 及 其 他 内 核 功能 ) 的 基础 。 其 他 有 类 似 双向 链表 需求 的 内 
核 功能 模块 可 直接 使 用 list. h 中 定义 的 函数 。 

(7) libs/atomic. h: 定义 了 对 一 个 变量 进行 读 写 的 原子 操作 ,确保 相关 操作 不 被 中 断 打 
断 。( 可 不 用 细 看 ) 

(8) tools/kernel. Id: ld 形成 执行 文件 的 地 址 所 用 到 的 链接 脚本 。 修 改 了 ucore 的 起 始 
人 入口 和 代码 段 的 起 始 地 址 。 相 关 细 节 可 参看 附录 Co 

编译 并 运行 代码 的 命令 如 下 : 

make 

make gam 
则 可 以 得 到 如 下 显示 ( 仅 供 参考 ): 

ey eae 


chenyu$ make qemu 
(THU.CST) os is loading... 


Special kemel symbols: 
entry — Oxc010002c (phys) 
etext  0xc010537f (phys) 
edata 0xc011698 (hys) 
end 0xc01178dc (phys) 

Kernel executable memory footprint: 95KB 

memory managment: default prm manager 

e820map: 
memory: 0009£400, [00000000, 0009F3ff], type=1. 
memory: 00000c00, [0009£400, O00SFff£], type=2. 
memory: 00010000, [000£0000, O00fFFFF], type=2. 
memory: O7efd000, [00100000, O7ffcfff], type=1. 
memory: 00003000，[07ffa000，07ffffff]，type= 2. 
memory: 00040000，[fffc0000，ffffffff]，type= 2. 

check_alloc_page() succeeded! 

check _pgdir() succeeded! 

check boot pgdir() succeeded! 


PDE (020) c0000000- £8000000 38000000 urw 
|- — PTE (38000) c0000000- £8000000 38000000- rw 
PDE (001) fac00000- £5000000 00400000- rw 
|- - PIE (00020) faf00000- fafe0000 000e0000 urw 
|- - PIE (00001) fafeb000- fafec000 00001000- rw 


通过 上 面 显示 ,我 们 可 以 看 到 ucore 在 显示 其 entry( 人 和 人口 地 址 ) .etext( 代 码 段 截 止 处 地 
HE) .edata( 数 据 段 截止 处 地 址 ) 和 end(ucore 截止 处 地 址 ?的 值 后 ,探测 出 计算 机 系统 中 的 物 
理 内 存 的 布局 (e820map 下 的 显示 内 容 )。 接 下 来 ucore 会 以 页 为 最 小 分 配 单位 实现 一 个 简 
单 的 内 存 分 配 管理 ,完成 二 级 页 表 的 建立 ,进入 分 页 模式 ,执行 各 种 我 们 设置 的 检查 ,最 后 显 
示 ucore 建 好 的 二 级 页 表 内 容 , 并 在 分 页 模式 下 响应 时 钟 中 断 。 


3.3 物理 内 存 管 理 概 述 
3.3.1 实验 执行 流程 概述 
本 次 实验 主要 完成 ucore 内 核对 物理 内 存 的 管理 工作 。 参 考 ucore FE Ph AW kern_init 


的 代码 ,可 以 清楚 地 看 到 在 调用 完成 物理 内 存 初始 化 的 pmm_init 函数 之 前 和 之 后 ,是 已 有 
。73 。 


labl 实验 的 工作 ,好 像 没 什么 修改 。 其 实 不 然 ,ucore 有 两 个 方面 的 扩展 。 首 先 ,bootloader 
的 工作 有 增加 ,在 bootloader 中 ,完成 了 对 物理 内 存 资源 的 探测 工作 (可 进一步 参阅 本 章 附 
录 A 和 附录 B) ,让 ucore kernel 在 后 续 执 行 中 能 够 基于 bootloader 探测 出 的 物理 内 存 情况 
进行 物理 内 存 管理 初始 化 工作 。 其 次 bootloader 不 像 labl 那样 ,直接 调用 kern_init 函数 ， 
而 是 先 调 用 位 于 lab2/kern/init/entry. S 中 的 kern_entry AA. kern_entry MAH £ BIE 
务 是 为 执行 kern_init 建立 一 个 良好 的 C 语言 运行 环境 (设置 堆栈 ) ,而 且 临 时 建立 了 一 个 段 
映射 关系 ,为 之 后 建立 分 页 机 制 的 过 程 做 一 个 准备 (细节 在 3. 5. 5 节 有 进一步 阐述 ) 。 完 成 
这 些 工作 后 , 才 调 用 kern_init 函数 。 

kern_init 函数 在 完成 一 些 输出 并 对 labl 实验 结果 的 检查 后 ,将 进入 物理 内 存 管 理 初始 
化 的 工作 , 即 调用 pmm_init 函数 完成 物理 内 存 的 管理 ,这 也 是 lab2 的 内 容 。 接 着 是 执行 中 
断 和 异常 相关 的 初始 化 工作 , 即 调用 pic_init 函数 和 idt_init 函数 等 ,这 些 工作 与 labl 的 中 
断 异 常 初始 化 工作 的 内 容 是 相同 的 。 

为 了 完成 物理 内 存 管 理 ,这 里 首先 需要 探测 可 用 的 物理 内 存 资源 ;了 解 到 物理 内 存 位 于 
什么 地 方 ` 有 多 大 之 后 ,就 以 固定 页 面 大 小 来 划分 整个 物理 内 存 空间 ,并 准备 以 此 为 最 小 内 
存 分 配 单位 来 管理 整个 物理 内 存 , 管 理 在 内 核 运行 过 程 中 每 页 内 存 , 设 定 其 可 用 状态 (free 
的 ,used 的 ,还 是 reserved 的 ) ,这 其 实 就 对 应 了 连续 内 存 分 配 概念 和 原理 的 具体 实现 ;接着 
ucore kernel 就 要 建立 页 表 , 启动 分 页 机 制 , 让 CPU 的 MMU 把 预先 建 好 的 页 表 中 的 页 表 
项 读 人 到 TLB 中 ,根据 页 表 项 描述 的 虚拟 页 (Page) 与 物理 页 帧 (Page Frame) 的 对 应 关系 完 
成 CPU 对 内 存 的 读 、 写 和 执行 操作 。 这 一 部 分 其 实 就 对 应 了 内 存 映射 页 表 、 多 级 页 表 等 
概念 和 原理 的 具体 实现 。 

在 代码 分 析 上 ,建议 根据 执行 流程 来 直接 看 源 代码 ,并 可 采用 GDB 源码 调试 的 手段 来 
动态 地 分 析 ucore 的 执行 过 程 。 内 存 管理 相关 的 总 体 控制 函数 是 pmm_init 函数 , 它 完成 的 
主要 工作 包括 如 下 。 

(1) 初始 化 物理 内 存 页 管理 器 框架 pmm_manager。 

(2) 建立 空闲 的 page 链表 ,这 样 就 可 以 分 配 以 页 (4KB) 为 单位 的 空闲 内 存 了 。 

(3) 检查 物理 内 存 页 分 配 算法 。 

(4) 为 确保 切换 到 分 页 机 制 后 ,代码 能 够 正常 执行 , 先 建立 一 个 临时 二 级 页 表 。 

(5) 建立 一 一 映射 关系 的 二 级 页 表 。 

(6) 使 能 分 页 机 制 。 

(7) 重新 设置 全 局 段 描述 符 表 。 

(8) 取消 临时 二 级 页 表 。 

(9) 检查 页 表 建 立 是 否 正确 。 

(10) 通过 自 映 射 机 制 完 成 页 表 的 打印 输出 (这 部 分 是 扩展 知识 ) 。 

另外 ,主要 注意 的 相关 代码 内 容 包括 如 下 。 

@ boot/bootasm. S 中 探测 内 存 部 分 (从 probe_memory 到 finish_probe 的 代码 ) 。 

O 管理 每 个 物理 页 的 Page 数据 结构 (在 mm/memlayout. h 中 ), 这 个 数据 结构 也 是 实 
现 连 续 物理 内 存 分 配 算 法 的 关键 数据 结构 ,可 通过 此 数据 结构 来 完成 空闲 块 的 链接 和 信息 
存储 ,而 基于 这 个 数据 结构 的 管理 物理 页 数组 起 始 地 址 就 是 全 局 变量 pages, 具 体 初始 化 此 
数组 的 函数 位 于 page_init 函数 中 。 

gAs 


@ 用 于 实现 连续 物理 内 存 分 配 算法 的 物理 内 存 页 管理 器 框架 pmm_manager, 这 个 数 
据 结 构 定 义 了 实现 内 存 分 配 算 法 的 关键 函数 指针 ,而 同学 需要 完成 这 些 函 数 的 具体 实现 。 

© 设 定 二 级 页 表 和 建立 页 表 项 以 完成 虚实 地 址 映射 关系 ,这 与 硬件 相关 , 且 用 到 不 少 
内 联 函 数 , 源 代码 相对 难 懂 一 些 。 具 体 完成 页 表 和 页 表 项 建立 的 重要 函数 是 boot_map_ 
segment PA RX. M get_pte 函数 是 完成 虚实 映射 关键 的 关键 。 


3.3.2 探测 系统 物理 内 存 布局 


当 ucore 启动 之 后 ,最 重要 的 事情 就 是 知道 还 有 多 少 内 存 可 用 。 一 般 来 说 ,获取 内 存 大 
小 的 方法 有 BIOS 中 断 调用 和 直接 探测 两 种 。BIOS 中 断 调 用 方法 一 般 只 能 在 实 模 式 下 完 
成 ,直接 探测 方法 必须 在 保护 模式 下 完成 。 通 过 BIOS 中 断 获取 内 存 布局 有 三 种 方式 ,都 是 
基于 INT 15h 中 断 , 分 别 为 88h、e801h、e820h。 但 是 ,并 非 在 所 有 情况 下 这 三 种 方式 都 能 工 
作 。 在 Linux Kernel 里 ,采用 的 方法 是 依次 尝试 这 三 种 方法 。 在 本 实验 中 ,我 们 通过 e820h 
中 断 获 取 内 存 信息 。 因 为 e820h 中 断 必须 在 实 模式 下 使 用 ,所 以 在 bootloader 进入 保护 模 
式 之 前 调用 这 个 BIOS 中 断 , 并 且 把 e820 映射 结构 保存 在 物理 地 址 0x8000 处 。 具 体 实现 
详 见 boot/bootasm. S。 有 关 探 测 系统 物理 内 存 方法 和 具体 实现 的 信息 参见 本 章 附 录 A 和 
附录 B。 


3.3.3 以 页 为 单位 管理 物理 内 存 


在 获得 可 用 物理 内 存 范 围 后 ,系统 需要 建立 相应 的 数据 结构 来 管理 以 物理 页 ( 按 4KB 
对 齐 , 且 大 小 为 4KB 的 物理 内 存单 元 ) 为 最 小 单位 的 整个 物理 内 存 , 以 配合 后 续 涉 及 的 分 页 
管理 机 制 。 每 个 物理 页 可 以 用 一 个 Page 数据 结构 来 表示 。 由 于 一 个 物理 页 需要 占用 一 个 
Page 结构 的 空间 ,Page 结构 在 设计 时 须 尽 可 能 小 ,以 减少 对 内 存 的 占用 。Page 的 定义 在 
kern/mm/memlayout.h 中 。 以 页 为 单位 的 物理 内 存 分 配 管理 的 实现 在 kern/default_ 
pmm. [ch], 
为 了 与 以 后 的 分 页 机 制 配合 ,首先 需要 建立 对 整个 计算 机 的 每 一 个 物理 页 的 属性 ,用 结 
构 Page 来 表示 , 它 包 含 了 映射 此 物理 页 的 虚拟 页 个 数 , 描 述 物 理 页 属性 的 flags 和 双向 链接 
各 个 Page 结构 的 page_link 双向 链表 。 
struct Page { 
int ref; 
uint32_t flags; 
unsigned int property; 
list entry t page link; 
F 
这 里 看 看 Page 数据 结构 的 各 个 成 员 变 量 有 何 具体 含义 。ref 表示 该 页 被 页 表 的 引用 记 
数 (在 "实现 分 页 机 制 ?一 节 会 讲 到 ) 。 如 果 这 个 页 被 页 表 引 用 了 , 即 在 某 页 表 中 有 一 个 页 表 
项 设置 了 一 个 虚拟 页 到 这 个 Page 管理 的 物理 页 的 映射 关系 ,就 会 把 Page 的 ref 加 1; 反 之 ， 
车 页 表 项 取消 , 即 映射 关系 解除 ,就 会 把 Page 的 ref 减 1。flags 表示 此 物理 页 的 状态 标记 ， 
进一步 查看 kern/mm/memlayout. h 中 的 定义 ,可 以 看 到 : 


/* Flags describing the status of a page frame* / 
° 75 。 


# define PG reserved 0 //the page descriptor is reserved for kemel or unusable 

# define PG property 1 //the member 'property' is valid 

这 表示 flags 目前 用 到 了 两 个 bit 表示 页 目前 具有 的 两 种 属性 ,bit 0 表示 此 页 是 否 被 保 
留 ,如 果 是 被 保留 的 页 , 则 bit 0 会 设置 为 1, 且 不 能 放 到 空闲 页 链表 中 , 即 这 样 的 页 不 是 空 
闲 页 ,不 能 动态 分 配 与 释放 。 比 如 目前 内 核 代 码 占 用 的 空间 就 属于 这 样 “被 保留 ”的 页 。 在 
本 实验 中 ,bit 1 表示 此 页 是 否 是 空闲 的 ,如 果 设 置 为 1, 表示 这 页 是 空闲 的 ,可 以 被 分 配 ; 如 
果 设 置 为 0, 表示 这 页 已 经 被 分 配 出 去 了 ,不 能 被 再 二 次 分 配 。 另 外 ,本 实验 这 里 取 的 名 字 
PG_property 不 直观 ,主要 是 我 们 可 以 设计 不 同 的 页 分 配 算法 ,那么 这 个 PG_property 就 有 
不 同 的 含义 了 。 

在 本 实验 中 ,Page 数据 结构 的 成 员 变量 property 用 来 记录 某 连 续 内 存 空闲 块 的 大 小 
( 即 地 址 连续 的 空闲 页 的 个 数 ) 。 这 里 需要 注意 的 是 用 到 此 成 员 变 量 的 这 个 Page 比较 特殊 ， 
是 这 个 连续 内 存 空闲 块 地 址 最 小 的 一 页 ( 即 头 一 页 ，Head Page)。 连 续 内 存 空闲 块 利用 这 
个 页 的 成 员 变 量 property 来 记录 在 此 块 内 的 空闲 页 的 个 数 。 这 里 取 的 名 字 property 也 不 
是 很 直观 ,原因 与 上 面 类 似 , 在 不 同 的 页 分 配 算法 中 ,property 有 不 同 的 含义 。 

Page 数据 结构 的 成 员 变 量 page_link 是 一 个 便于 把 多 个 连续 内 存 空 闲 块 链接 在 一 起 的 
双向 链表 指针 (可 回顾 在 labo 中 有 关 双 向 链表 数据 结构 的 介绍 )。 这 里 需要 注意 的 是 用 到 
此 成 员 变 量 的 这 个 Page 比较 特殊 ,是 这 个 连续 内 存 空闲 块 地 址 最 小 的 一 页 ( 即 头 一 页 ， 
Head Page) 。 连 续 内 存 空闲 块 利用 这 个 页 的 成 员 变 量 page_link 来 链接 比 它 地 址 小 和 大 的 
其 他 连续 内 存 空 闲 块 。 

在 初始 情况 下 ,也 许 这 个 物理 内 存 的 空闲 物理 页 都 是 连续 的 ,这 样 就 形成 了 一 个 大 的 连 
续 内 存 空 闲 块 。 但 随 着 物理 页 的 分 配 与 释放 ,这 个 大 的 连续 内 存 空闲 块 会 分 裂 为 一 系列 地 
址 不 连续 的 多 个 小 连续 内 存 空 闲 块 , 且 每 个 连续 内 存 空 闲 块 内 部 的 物理 页 是 连续 的 。 为 了 
有 效 地 管理 这 些小 连续 内 存 空闲 块 , 所 有 的 连续 内 存 空闲 块 可 用 一 个 双向 链表 来 管理 ,便于 
分 配 和 释放 ,为 此 定义 了 一 个 free_area_t 数据 结构 , 它 包含 了 一 个 list_entry 结构 的 双向 链 
表 指 针 和 记录 当前 空闲 页 的 个 数 的 无 符号 整 型 变量 nr_free。 其 中 的 链表 指针 指向 了 空闲 
的 物理 页 。 


/* free area t- maintains a doubly linked list to record free (unused) pages* / 


typedef struct { 
list_entry t free list; //the list header 
unsigned int nr free; //natber of free pages in this free list 
} fræ area t; 


有 了 这 两 个 数据 结构 , ucore 就 可 以 管理 起 来 整个 以 页 为 单位 的 物理 内 存 空间 。 接 下 
来 需要 解决 两 个 问题 。 

(1) 管理 页 级 物理 内 存 空 间 所 需 的 Page 结构 的 内 存 空 间 从 哪里 开始 , 占 多 大 空间 ? 

(2) 空闲 内 存 空间 的 起 始 地 址 在 哪里 ? 

对 于 这 两 个 问题 ,我们 首先 根据 bootloader 给 出 的 内 存 布局 信息 找 出 最 大 的 物理 内 存 
地 址 maxpa( 定 义 在 page_init 函数 中 的 局 部 变量 ) ,由 于 x86 的 起 始 物理 内 存 地 址 为 0, 所 以 
可 以 得 知 需要 管理 的 物理 页 个 数 为 
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npage= maxpa / PGSIZE 


这 样 ,就 可 以 预 估 出 管理 页 级 物理 内 存 空 间 所 需 的 Page 结构 的 内 存 空 间 所 需 的 内 存 大 
小 为 


sizeof (struct Page) * npage) 


由 于 bootloader 加 载 ucore 的 结束 地 址 (用 全 局 指针 变量 end 记录 ) 以 上 的 空间 没有 被 
使 用 ,所 以 我 们 可 以 把 end 按 页 大 小 为 边界 取 整 后 ,作为 管理 页 级 物理 内 存 空 间 所 需 的 
Page 结构 的 内 存 空间 , 记 为 : 


pages (struct Page* )ROUNDUP((void* )end, PGSIZE); 


为 了 简化 起 见 , 从 地 址 0 到 地 址 pages 十 sizeof(struct Page) * npage) 结 束 的 物理 内 
存 空间 设 定 为 已 占用 物理 内 存 空 间 ( 起 始 0 一 640KB 的 空间 是 空闲 的 ) ,地址 pages 十 
sizeof( struct Page) * npage) 以 上 的 空间 为 空闲 物理 内 存 空 间 , 这 时 的 空闲 空间 起 始 地 
址 为 

uintptr_t freemem= PADDR ((uintptr_t)pages+ sizeof (struct Page) * npage) ; 

为 此 我 们 需要 把 这 两 部 分 空间 给 标识 出 来 。 首 先 , 对 于 所 有 物理 空间 ,通过 如 下 语句 即 
可 实现 占用 标记 : 

for (i=0; i<npage; i++) { 

SetPageReserved (pages+ i); 

} 

然后 ,根据 探测 到 的 空闲 物理 空间 ,通过 如 下 语句 即 可 实现 空闲 标记 : 

// 获 得 空闲 空间 的 起 始 地 址 begin 和 结束 地 址 end 


init memp (pa2page (begin), (end- begin) /PGSIZE); 


其 实 SetPageReserved 只 需 把 物理 地 址 对 应 的 Page 结构 中 的 flags 标志 设置 为 PG_ 
reserved ,表示 这 些 页 已 经 被 使 用 了 ,将 来 不 能 被 用 于 分 配 。 而 init_memmap 函数 则 是 把 
空闲 物理 页 对 应 的 Page 结构 中 的 flags 和 引用 计数 ref 清 零 ,并 加 到 free_area. free_list 指 
向 的 双向 列表 中 ,为 将 来 的 空闲 页 管理 做 好 初始 化 准备 工作 。 

操作 系统 关于 内 存 分 配 原 理 方面 的 知识 有 很 多 ,但 在 本 实验 中 只 实现 了 最 简单 的 内 存 
页 分 配 算法 。 相 应 的 实现 在 default_pmm. c 中 的 default_alloc_pages pi AA default_free_ 
pages 函数 ,相关 实现 很 简单 ,这 里 就 不 具体 分 析 了 ,直接 看 源码 ,应 该 很 好 理解 。 

其 实 实验 2 在 内 存 分 配 和 释放 方面 最 主要 的 作用 是 建立 了 一 个 物理 内 存 页 管理 器 框 
架 , 这 实际 上 是 一 个 函数 指针 列表 ,定义 如 下 : 


Struct pm manager { 


const charx name; // 物 理 内 存 页 管理 器 的 名 字 

void (* init) (void); // 初 始 化 内 存 管理 器 

void(* init mamap) (struct Page* base,size tn); // 初 始 化 管理 空闲 内 存 页 的 数据 结构 
struct Page* (* alloc pages) (size t n); // 分 配 n 个 物理 内 存 页 


Eo 


void(* free pages) (struct Page* base,size tn); // 释 放 n 个 物理 内 存 页 


size t (* nr free pages) (void); // 返 回 当前 剩余 的 空闲 页 数 
void (* check) (void); // 用 于 检测 分 配 /释放 实现 是 否 正 确 的 辅助 函数 


F 


重点 是 实现 init_memmap ,alloc_pages,free_pages 这 三 个 函数 。 当 完成 物理 内 存 页 管 
理 初 始 化 工作 后 ,计算 机 系统 的 内 存 布局 如 图 3-4 所 示 。 


32 位 设备 映射 空间 j———_ OxFFFFFFFF(4GB) 
一 实际 物理 内 存 空间 
结束 地 址 
空闲 内 存 空间 
一 空闲 内 存 空 间 的 起 始 地 址 -freemem 
n*sizeof(struct Page) [a 空闲 空间 的 区 
类 小 的 空间 管理 空闲 空间 的 区 域 
= BSS 段 结束 处 
BSS. 
weore 的 B kag 基于 ucoreo 数 据 大 小 
ucore 的 DATA 段 
一 基于 ucoreo 代 码 大 小 
ucore 的 TEXT 段 
= 0x00100000(1MB) 
BIOS ROM 
| 一 0x000F0000(960KB) 
16 位 设备 扩展 ROM 
0x000C0000(768KB) 
CGA 显 示 空 间 
0x000B8000 
空闲 空间 
0x00011000(+4KB) 
ucore 的 ELF header 
数据 
一 0x00010000 
2s 3 ea) 
空闲 空间 一 基于 bootloader 大 小 
bootloader 的 TEXT 
段 和 DATA 段 
一 0x00007C00( 栈 项 ) 
bootloader 和 
ucore 共 用 的 堆栈 
Golan ia 基于 对 堆栈 的 使 用 情况 
低地 址 空闲 空间 


0x00000000 
图 3-4 计算 机 系统 的 内 存 布局 


3.3.4 物理 内 存 页 分 配 算法 实现 


如 果 要 在 ucore 中 实现 连续 物理 内 存 分 配 算法 , 则 需要 考虑 的 问题 比较 多 ,相对 课本 上 
的 物理 内 存 分 配 算法 描述 要 复杂 不 少 。 下 面 介绍 一 下 实现 一 个 first_fit 内 存 分 配 算法 的 大 
致 流程 。 

lab2 的 第 一 部 分 是 完成 first_fit 的 分 配 算 法 。first_fit 内 存 分 配 算法 原理 上 很 简单 ,但 
要 在 ucore 中 实现 ,需要 充分 了 解 并 利用 ucore 已 有 的 数据 结构 和 相关 操作 、 关 键 的 一 些 全 
局 变量 等 。 

1. 关键 数据 结构 和 变量 

first_fit 分 配 算法 需要 维护 一 个 查找 有 序 ( 地 址 按 从 小 到 大 排列 ) 空 闲 块 ( 以 页 为 最 小 
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单位 的 连续 地 址 空间 ) 的 数据 结构 ,而 双向 链表 是 一 个 很 好 的 选择 。 

libs/list. h 定义 了 可 挂 接任 意 元 素 的 通用 双向 链表 结构 和 对 应 的 操作 ,所 以 需要 了 解 
如 何 使 用 这 个 文件 提供 的 各 种 函数 ,从 而 可 以 完成 对 双向 链表 的 初始 化 插入、 删除 等 操作 。 

kern/mm/memlayout. h 中 定义 了 一 个 free_area_t 数据 结构 ,包含 成 员 结 构 如 下 : 

List entry t free list; J ASOT Be K 

unsigned int nr free; // 空 闲 块 的 总 数 以 页 为 单位 ) 

显然 ,我 们 可 以 通过 此 数据 结构 来 完成 对 空闲 块 的 管理 ,而 default_pmm. c 中 定义 的 
free_area 变量 就 是 做 这 个 事情 的 。 

kern/mm/pmm. h 中 定义 了 一 个 通用 的 分 配 算法 的 函数 列表 ,用 pmm_manager 表示 。 
其 中 init 函数 就 是 用 来 初始 化 free_area 变量 的 , first_fit 分 配 算法 可 直接 重用 default_init 
函数 的 实现 。init_memmap 函数 需要 根据 现 有 的 内 存 情况 构建 空闲 块 列表 的 初始 状态 。 何 
时 应 该 执行 这 个 函数 呢 ? 

通过 分 析 代 码 ,可 以 知道 : 

kem init- ->pm init- - >page init--> init memep- - > pm manager- > init mermap 
所 以 ,default_init_memmap 需要 根据 page_init 函数 中 传递 过 来 的 参数 ( 某 个 连续 地 址 的 空闲 
块 的 起 始 页 ,页 个 数 ) 来 建立 一 个 连续 内 存 空闲 块 的 双向 链表 。 这 里 有 一 个 假定 page_init R 
数 是 按 地 址 从 小 到 大 的 顺序 传 来 的 连续 内 存 空 闲 块 的 。 链 表 头 是 free_area. free_list ,链表 
项 是 Page 数据 结构 的 base 一 之 page_link。 这 样 我 们 就 依靠 Page 数据 结构 中 的 成 员 变 量 
page_link 形成 了 连续 内 存 空闲 块 列表 。 

2. 设计 实现 

default_init_memmap 了 晴 数 将 根据 每 个 物理 页 帧 的 情况 来 建立 空闲 页 链表 , 且 空 闲 页 块 
应 该 根据 地 址 高 低 形 成 一 个 有 序 链表 。 根 据 上 述 变量 的 定义 ,default_init_memmap 可 大 致 
实现 如 下 : 


default init _memmap (struct Page* base, size tn) { 
struct Page* p=base; 
for (; p !=base+n; p+) { 
p-> flags= p- > property= 0; 
set page ref (p, 0); 
} 
base- > property=n; 
SetPageProperty (base) ; 
nr freet=n; 
list_add(sfree list, & (base- >page link)); 
} 


如 果 要 分 配 一 个 页 ,需要 考虑 哪些 问题 呢 ? 这 里 就 需要 考虑 实现 default_alloc_pages 
函数 ,注意 参数 n 表示 要 分 配 n 个 页 。 另 外 ,需要 注意 实现 时 尽量 多 考虑 一 些 边界 情况 ,这 
样 确保 软件 的 鲁 棒 性 。 例 如 : 

if (nr free) { 

379) 


} 


return NULL; 


这 样 可 以 确保 分 配 不 会 超出 范围 。 也 可 加 一 些 assert 函数 , 当 有 错误 出 现时 ,能 够 迅 
速 发 现 。 例 如 ,n 应 该 大 于 0, 我 们 就 可 以 加 上 


assert (n> 0); 


这 样 在 n<=0 的 情况 下 ,ucore 会 迅速 报错 。first_fit 需要 从 空闲 链表 头 开 始 查找 最 小 的 
地 址 ,通过 list_next 找到 下 一 个 空闲 块 元 素 , 通 过 le2page 宏 可 以 更 加 链表 元 素 获 得 对 应 的 
Page 指针 p。 通 过 p—>property 可 以 了 解 此 空闲 块 的 大 小 。 如 果 二 =n, 这 就 找到 了 ! 如 
果 二 n, 则 通过 list_next, 继 续 查 找 。 直 到 list_next 二 二 &free_list, 这 表示 找 完 一 遍 了 。 找 
到 后 ,就 要 重新 组 织 空闲 块 , 然 后 把 找到 的 page 返回 。 所 以 default_alloc_pages 可 大 致 实 


现 如 下 : 


static struct Page* 
default alloc pages(size tn) { 


} 


if (mnr fre) { 
retum NULL; 
} 
struct Page * page= NULL; 
list entry tx le &free list; 
while ((le=list_next(le)) != &free list) { 
struct Page* p= le2page (le, page link); 
if (@->property>=n) { 
page= p; 
break; 
} 
} 
if (page !=NULL) { 
list del (& (page- > page_link)); 
if (page- > property>n) { 
struct Page * p= page+ n; 
p-> property= page- > property- n; 
list_add(&free list, &(p- >page link)); 
} 
nr_free-=n; 
ClearPageProperty (page) ; 
} 
retum page; 


default_free_pages ARUN KPH FE default_alloc_pages 的 逆 过 程 ,不 过 需要 考虑 空 
闲 块 的 合并 问题 。 这 里 就 不 再 细 讲 了 。 注 意 , 上 述 代 码 只 是 参考 设计 ,不 是 完整 的 正确 设 
计 。 更 详细 的 说 明 位 于 lab2/kernel/mm/default_pmm. c 的 注释 中 。 和 希望 读者 能 够 顺利 完 
成 本 实验 的 第 一 部 分 。 


。 80 。 


3.3.5 实现 分 页 机 制 


1. 段 页 式 管理 基本 概念 

在 保护 模式 中 ,x86 体系 结构 将 内 存 地 址 分 成 三 种 : 逻辑 地 址 (也 称 虚 地 址 ) 线性 地 址 
和 物理 地 址 。 逻 辑 地 址 就 是 程序 指令 中 使 用 的 地 址 ,物理 地 址 是 实际 访问 内 存 的 地 址 。 逮 
辑 地 址 通过 段 式 管理 的 地 址 映射 可 以 得 到 线性 地 址 ,线性 地 址 通过 页 式 管理 的 地 址 映射 得 
到 物理 地 址 。 段 页 式 管 理 总 体 框架 图 如 图 3-5 所 示 。 


Logical Address 
(or Far Pointer) 


Segment 1 
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Space 
Linear Address 
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图 3-5 段 页 式 管理 总 体 框 架 图 


段 式 管理 前 一 个 实验 已 经 讨论 过 。 在 ucore 中 段 式 管理 只 起 到 了 一 个 过 渡 作用 , 它 将 
逻辑 地 址 不 加 转换 直接 映射 成 线性 地 址 ,所 以 我 们 在 下 面 的 讨论 中 可 以 对 这 两 个 地 址 不 加 
区 分 (目前 的 OS 实现 也 是 不 加 区 分 的 ) 。 对 段 式 管理 有 兴趣 的 同学 可 以 参考 (Intel 64 and 
IA-32Architectures Software Developer's Manual-Volume 3A)3. 2 4. 

如 图 3-6 所 示 , 页 式 管理 将 线性 地 址 分 成 三 部 分 , 即 Directory #4}. Table 部 分 和 
Offset 部 分 )。ucore 的 页 式 管理 通过 一 个 二 级 的 页 表 实 现 。 一 级 页 表 的 起 始 物理 地 址 存放 
在 CR3 寄存 器 中 ,这 个 地 址 必须 是 一 个 页 对 齐 的 地 址 ,也 就 是 低 12 位 必须 为 0。 目前 ， 
ucore 用 boot_cr3( 位 于 mm/pmm. c 中 ) 记 录 这 个 值 。 

2. 建立 段 页 式 管理 中 需要 考虑 的 关键 问题 

为 了 实现 分 页 机 制 ,需要 建立 好 虚拟 内 存 和 物理 内 存 的 页 映射 关系 , 即 正确 建立 二 级 页 
表 。 此 过 程 涉 及 硬件 细节 ,不 同 的 地 址 映射 关系 组 合 ,相对 比较 复杂 。 总 体 而 言 , 我 们 需要 
思考 如 下 问题 。 

PET 
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Directory Table Offset 
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4KB Page 


10 10 Page Table Physical Address 
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*32 bits aligned onto a 4KB boundary 
图 3-6 分 页 机 制 管理 


(1) 如 何在 建立 页 表 的 过 程 中 维护 全 局 段 描述 符 表 (GDT) 和 页 表 的 关系 ,确保 ucore 
能 够 在 各 个 时 间 段 上 都 能 正常 寻 址 ? 

(2) 对 于 哪些 物理 内 存 空间 需要 建立 页 映射 关系 ? 

(3) 具体 的 页 映射 关系 是 什么 ? 

(4) 页 目录 表 的 起 始 地 址 设置 在 哪里 ? 

(5) 页 表 的 起 始 地 址 设置 在 哪里 ,需要 多 大 空间 ? 

(6) 如 何 设置 页 目录 表 项 的 内 容 ? 

(7) 如 何 设置 页 表 项 的 内 容 ? 

3. 建立 虚拟 页 和 物理 页 帧 的 地 址 映射 关系 

1) 从 链接 脚本 分 析 ucore 执行 时 的 地 址 

首先 观察 一 下 tools/kernel. ld 文件 在 labl 和 lab2 中 的 区 别 。 在 labl 中 : 


ENIRY (kem init) 


SECTIONS { 
/* Load the kemel at this address: "." means the current address * / 
.= 0x100000; 


text : { 
* (text .stub .text.* .gnu.linkonce.t. * ) 
} 
这 意味 着 在 labl 中 通过 ld 工具 形成 的 ucore 的 起 始 虚拟 地 址 从 0x100000 开始 。 
注意 : 这 个 地 址 是 虚拟 地 址 。 但 由 于 labl 中 建立 的 段 地 址 映射 关系 为 对 等 关系 ,所 以 
ucore 的 物理 地 址 也 是 0x100000。 而 入 口 函 数 为 kern init 函数 。 在 lab2 中 : 


ENTRY (kem entry) 
+ 826 


SECTIONS { 
/* Toad the kemel at this address: "." means the current address * / 
.= 0xC0100000; 


text : { 
* (.text .stub .text.* .gnu.linkonoe.t.* ) 
} 
这 意味 着 lab2 中 通过 ld 工具 形成 的 ucore 的 起 始 虚拟 地 址 从 0xC0100000 开始 。 
TER: 这 个 地 址 也 是 虚拟 地 址 。 入 口 函数 为 kern_entry 函数 。 这 与 labl 有 很 大 差别 。 
但 其 实在 labl 和 1lab2 中 ,bootloader 把 ucore 都 放 在 了 起 始 物理 地 址 为 0x100000 的 物理 内 
存 空间 。 这 实际 上 说 明了 ucore 在 labl 和 lab2 中 采用 的 地 址 映射 不 同 。 
labl: Virtual Address= Linear Address= Physical Address. 
lab2: Virtual Address = Linear Address= Physical Address+0xC0000000, 
labl 只 采用 了 段 映射 机 制 ,但 在 lab2 中 ,启动 好 分 页 管理 机 制 后 ,形成 的 是 段 页 式 映射 
机 制 ,从 而 使 得 虚拟 地 址 空间 和 物理 地 址 空间 之 间 存 在 如 下 映射 关系 : 


Virtual Address= Linear Address= 0xC0000000+ Physical Address 


另外 ,ucore 的 人口 地 址 也 改 为 kern_entry 函数 ,这 个 函数 位 于 init/entry. S 中 ,分析 代 
码 可 以 看 出 ,entry. S 重新 建立 了 段 映射 关系 ,从 以 前 的 

Virtual Address= Linear Address 
改 为 

Virtual Address= Linear Address- 0%C0000000 

由 于 gec 编译 出 的 虚拟 起 始 地 址 从 OxC0100000 开始 ,ucore 被 bootloader 放置 在 从 物 
理 地址 0x100000 处 开始 的 物理 内 存 中 。 所 以 当 kern_entry 函数 完成 新 的 段 映射 关系 后 ， 
H. ucore 在 没有 建 好 页 映射 机 制 前 ,CPU 按照 ucore 中 的 虚拟 地 址 执行 ,能 够 被 分 段 机 制 映 
射 到 正确 的 物理 地 址 上 ,确保 ucore 运行 正确 。 

由 于 物理 内 存 页 管理 器 管理 了 从 0 到 实际 可 用 物理 内 存 大 小 的 物理 内 存 空 间 , 所 以 对 
于 这 些 物 理 内 存 空间 都 需要 建 好 页 映射 关系 。 由 于 目前 ucore 只 运行 在 内 核 空间 ,所 以 可 
以 建立 一 个 一 一 映射 关系 。 假 定 内 核 虚拟 地 址 空间 的 起 始 地 址 为 0xC0000000, 则 虚拟 内 存 
和 物理 内 存 的 具体 页 映射 关系 为 


Virtual Address= Physical Address+ 0xC0000000 


2) 建立 二 级 页 表 

由 于 已 经 具有 了 一 个 物理 内 存 页 管理 器 default_pmm_manager, 我 们 就 可 以 用 它 来 获 
得 所 需 的 空闲 物理 页 。 在 二 级 页 表 结 构 中 ,页 目录 表 占 4KB 空间 ,ucore 就 可 通过 default_ 
pmm_manager 的 default_alloc_pages 函数 获得 一 个 空闲 物理 页 ,这 个 页 的 起 始 物理 地 址 就 
是 页 目录 表 的 起 始 地 址 。 同 理 ,ucore 也 通过 这 种 方式 获得 各 个 页 表 所 需 的 空间 。 页 表 的 
空间 大 小 取决 与 页 表 要 管理 的 物理 页 数 ,一 个 页 表 项 (32 位 , 即 4B) 可 管理 一 个 物理 页 ,页 


表 需 要 占 /256 个 物理 页 空间 。 这 样 页 目录 表 和 页 表 所 占 的 总 大 小 为 4096 十 1024 XnB。 

为 把 0 一 KERNSIZE (明确 ucore 设 定 实际 物理 内 存 不 能 超过 KERNSIZE 值 , 即 
0x38000000B,896MB,3670016 个 物理 页 ) 的 物理 地 址 一 一 映射 到 页 目录 表 项 和 页 表 项 的 内 
容 , 其 大 致 流程 如 下 。 

(1) 先 通过 default_pmm_manager 获得 一 个 空闲 物理 页 ,用 于 页 目录 表 。 

(2) 调用 boot_map_segment 图 数 建立 一 一 映射 关系 ,具体 处 理 过 程 以 页 为 单位 进行 设 
置 , 即 Virtual Address= Physical Address 十 0xC0000000 。 

一 个 逻辑 地 址 la( 按 页 对 齐 , 故 低 12 位 为 零 ) 对 应 的 物理 地 址 为 pa( 按 页 对 齐 , 故 低 

12 位 为 零 ) ,如 果 在 页 目录 表 项 (la 的 高 10 位 为 索引 值 ) 中 的 存在 位 (PTE_P) 为 0, 表示 缺少 
对 应 的 页 表 空 间 , 则 可 通过 default_pmm_manager 获得 一 个 空闲 物理 页 给 页 表 , 页 表 起 始 
物理 地 址 是 按 4096B 对 齐 的 ,这 样 填写 页 目录 表 项 的 内 容 为 


页 目录 表 项 内 容 = 页 表 起 始 物理 地 址 1PIE U|PIE W|IPIE P 
进一步 对 于 页 表 中 对 应 页 表 项 (la 的 中 10 位 为 索引 值 ) 的 内 容 为 
TW A= pal PTE P| PTE W 


其 中 各 项 含义 如 下 。 

O PTE_U: 位 3, 表示 用 户 态 的 软件 可 以 读 取 对 应 地 址 的 物理 内 存 页 内 容 。 

© PTE_W: 位 2, 表示 物理 内 存 页 内 容 可 写 。 

© PTE_P: 位 1, 表 示 物 理 内 存 页 存在 。 

ucore 的 内 存 管理 经 常 需要 查找 页 表 : 给 定 一 个 虚拟 地 址 , 找 出 这 个 虚拟 地 址 在 二 级 页 
表 中 对 应 的 项 。 通 过 更 改 此 项 的 值 可 以 方便 地 将 虚拟 地 址 映射 到 另外 的 页 上 。 可 完成 此 功 
能 的 这 个 函数 是 get_pte 函数 。 它 的 原型 为 


pte tx gt pte (pde tx pgdir, uintptr t la, bool create) 
如 图 3-7 所 示 的 调用 关系 图 可 以 比较 好 地 看 出 get_pte 在 实现 上 述 流 程 中 的 位 置 。 
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图 3-7 get_pte 调用 关系 图 


这 里 涉及 三 个 类 型 pte_t、pde_t 和 uintptr_t。 通 过 参见 mm/mmlayout. h 和 libs/ 


types. h, 可 知 它们 其 实 都 是 unsigned int 类 型 。 在 此 做 区 分 ,是 为 了 分 清 概念 。 
ETES 


pde_t 全 称 为 page directory entry, 也 就 是 一 级 页 表 的 表 项 (注意 : pgdir 实际 不 是 表 
项 ,而 是 一 级 页 表 本 身 。 实 际 上 应 该 新 定义 一 个 类 型 pgd_t 来 表示 一 级 页 表 本 身 )。pte_t 
全 称 为 page table entry, 表 示 二 级 页 表 的 表 项 。uintptr_t 表示 为 线性 地 址 ,由 于 段 式 管理 
只 做 直接 映射 ,所 以 它 也 是 逻辑 地 址 。 

pgdir 给 出 页 表 起 始 地 址 。 通 过 查找 这 个 页 表 , 我 们 需要 给 出 二 级 页 表 中 对 应 项 的 地 
tk. BSAA RA boot_pgdir 一 个 页 表 , 但 是 引入 进程 的 概念 之 后 每 个 进程 都 会 有 自己 的 
页 表 。 

有 可 能 根本 就 没有 对 应 的 二 级 页 表 的 情况 ,所 以 二 级 页 表 不 必 一 开始 就 分 配 ,而 是 等 到 
需要 的 时 候 再 添加 对 应 的 二 级 页 表 。 如 果 在 查找 二 级 页 表 项 时 ,发 现 对 应 的 二 级 页 表 不 存 
在 , 则 需要 根据 create 参数 的 值 来 处 理 是 否 创 建新 的 二 级 页 表 。 如 果 create 参数 为 0, 则 
get_pte 返回 NULL; 如 果 create 参数 不 为 0, 则 get_pte 需要 申请 一 个 新 的 物理 页 (通过 
alloc_page 来 实现 ,可 在 mm/pmm. h 中 找到 它 的 定义 ) ,再 在 一 级 页 表 中 添加 页 目录 表 项 指 
向 表示 二 级 页 表 的 新 物理 页 。 注 意 , 新 申请 的 页 必须 全 部 设 定 为 零 ,因为 这 个 页 所 代表 的 虚 
拟 地 址 都 没有 被 映射 。 

当 建立 从 一 级 页 表 到 二 级 页 表 的 映射 时 ,需要 注意 设置 控制 位 。 这 里 应 该 设置 同时 设 
置 上 PTE_U、PTE_W 和 PTE_P( 定 义 可 在 mm/mmu. h)。 如 果 原 来 就 有 二 级 页 表 , 或 者 
新 建立 了 页 表 , 则 只 需 返 回 对 应 项 的 地 址 即 可 。 

虚拟 地 址 只 有 映射 上 了 物理 页 才 可 以 正常 的 读 写 。 在 完成 映射 物理 页 的 过 程 中 ,除了 
要 像 上 面 那样 在 页 表 的 对 应 表 项 上 填 上 相应 的 物理 地 址 外 ,还 要 设置 正确 的 控制 位 。 有 关 
x86 中 页 表 控 制 位 的 详细 信息 ,请 参照 《Intel 64 and IA-32 Architectures Software 
Developer’s Manual-Volume 3A)4. 11 节 。 

只 有 当 一 级 二 级 页 表 的 项 都 设置 了 用 户 写 权 限 后 ,用 户 才能 对 对 应 的 物理 地 址 进行 读 
写 。 所 以 可 以 在 一 级 页 表 先 给 用 户 写 权限 ,再 在 二 级 页 表 上 面 根据 需要 限制 用 户 的 权限 ,对 
物理 页 进行 保护 。 由 于 一 个 物理 页 可 能 被 映射 到 不 同 的 虚拟 地 址 上 (如 一 块 内 存在 不 同 进 
程 间 共享 ) , 当 这 个 页 需要 在 一 个 地 址 上 解除 映射 时 ,操作 系统 不 能 直接 把 这 个 页 回收 ,而 是 
要 先 看 看 它 还 有 没有 映射 到 别 的 虚拟 地 址 上 。 这 是 通过 查找 管理 该 物理 页 的 Page 数据 结 
构 的 成 员 变 量 ref( 用 来 表示 虚拟 页 到 物理 页 的 映射 关系 的 个 数 ) 来 实现 的 ,如 果 ref 为 0, 表 
示 没 有 虚拟 页 到 物理 页 的 映射 关系 ,就 可 以 把 这 个 物理 页 给 回收 ,从 而 这 个 物理 页 是 空闲 
页 ,可 以 再 被 分 配 。page_insert 函数 将 物理 页 映射 在 页 表 上 。 可 参看 page_insert 函数 的 实 
HK T ff ucore 内 核 是 如 何 维 护 这 个 变量 的 。 当 不 需要 再 访问 这 块 虚拟 地 址 时 ,可 以 把 这 
块 物理 页 回收 并 在 将 来 用 在 其 他 地 方 。 取 消 映射 由 page_remove 来 做 ,这 其 实 是 page 
insert 的 逆 操 作 。 

建立 好 一 一 映射 的 二 级 页 表 结构 后 , 接 下 来 就 要 使 能 分 页 机 制 了 ,这 主要 是 通过 enable_ 
paging 函数 实现 ,这 个 函数 主要 做 了 两 件 事 。 

© 通过 lcr3 指令 把 页 目录 表 的 起 始 地 址 存 人 CR3 寄存 器 中 。 

© 通过 lero 指令 把 cro 中 的 CRO_PG 标志 位 设置 上 。 

执行 完 enable_paging 函数 后 ,计算 机 系统 便 进入 了 分 页 模式 。 但 到 这 一 步 还 不 够 ,还 
记得 ucore 在 最 开始 通过 kern_entry 函数 设置 了 临时 的 新 段 映射 机 制 吗 ? 这 个 临时 的 新 段 
映射 机 制 不 是 最 简单 的 对 等 映射 ,导致 虚拟 地 址 和 线性 地 址 不 相等 。 刚 才 建 立 的 页 映射 关 
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系 是 建立 在 简单 的 段 对 等 映射 , 即 虚拟 地 址 = 线性 地 址 的 假设 基础 之 上 的 。 所 以 需要 进 一 
步调 整 段 映射 关系 , 即 重新 设置 新 的 GDT, 建 立 对 等 段 映 射 。 

这 里 需要 注意 : 在 进入 分 页 模式 到 重新 设置 新 GDT 的 过 程 是 一 个 过 渡 过 程 。 在 这 个 
过 渡 过 程 中 ,已 经 建立 了 页 表 机 制 ,所 以 通过 现在 的 段 机 制 和 页 机 制 实现 的 地 址 映射 关系 为 

在 这 个 特殊 的 阶段 ,如 果 不 把 段 映射 关系 改 为 Virtual Address=Linear Address, 则 通 
过 段 页 式 两 次 地 址 转换 后 ,无 法 得 到 正确 的 物理 地 址 。 为 此 需要 进一步 调用 gdt_init 函数 ， 
根据 新 的 gdt 全 局 段 描述 符 表 内 容 (gdt 定义 位 于 pmm. c 中 ) ,恢复 以 前 的 段 映 射 关 系 , 即 使 
得 Virtual Address= Linear Address。 这 样 在 执行 完 gdt_init 后 ,通过 的 段 机 制 和 页 机 制 实 
现 的 地 址 映射 关系 为 : 


Virtual Address= Linear Address= Physical Address+ 0xC0000000 


这 里 存在 的 一 个 问题 是 ,在 调用 enable_page 函数 使 能 分 页 机 制 后 到 执行 完毕 gdt_init 
函数 重新 建立 好 段 页 式 映 射 机 制 的 过 程 中 ,内 核 使 用 的 还 是 旧 的 段 表 映射 ,也 就 是 说 ， 
enable paging 之 后 ,内 核 使 用 的 是 页 表 的 低地 址 entry。 如 何 保证 此 时 内 核 依然 能 够 正常 工 
作 呢 ?其 实 只 需 让 低地 址 目录 表 项 的 内 容 等 于 以 KERNBASE 开始 的 高 地 址 目录 表 项 的 内 
容 即 可 。 目 前 内 核 大 小 不 超过 4MB( 实 际 上 是 3MB, 因 为 内 核 从 0x100000 开始 编 址 ) ,这 
样 就 只 需要 让 页 表 在 O~4MB 的 线性 地 址 与 KERNBASE ~ KERNBASE+4MB 的 线性 地 
址 获得 相同 的 映射 即 可 ,都 映射 到 0 一 4MB 的 物理 地 址 空间 ,具体 实现 在 pmm. c 中 pmm_ 
init 函数 的 语句 : 

boot pgdir[0]=boot pgdir[PDX (KERNBASE) ] ; 

实际 上 这 种 映射 也 限制 了 内 核 的 大 小 。 当 内 核 大 小 超过 预期 的 3MB 就 可 能 导致 打开 
分 页 之 后 内 核 crash ,在 后 面 的 实验 中 ,也 的 确 出 现 了 这 种 情况 。 解 决 方法 同样 简单 ,就 是 复 
制 更 多 的 高 地 址 项 到 低地 址 。 

当 执行 完 gdt_init 函数 后 ,新 的 段 页 式 映射 已 经 建 好 了 ,上 面 的 0 一 4MB 的 线性 地 址 与 
0 一 4MB 的 物理 地 址 一 一 映射 关系 已 经 没有 用 了 。 所 以 可 以 通过 如 下 语句 解除 这 个 旧 的 映 


boot padir[0]=0; 


在 page_init 函数 建立 完 实现 物理 内 存 一 一 映射 及 页 目录 表 自 映射 的 页 目录 表 和 页 表 
后 ,一 旦 使 能 分 页 机 制 , 则 ucore 看 到 的 内 核 虚 拟 地 址 空间 如 图 3-8 所 示 。 

4. 不 同 运行 阶段 的 地 址 映射 关系 

在 大 多 数 课 本 中 ,描述 了 基于 段 的 映射 关系 、 基 于 页 的 映射 关系 以 及 基于 段 页 式 的 映射 
关系 和 CPU 访 存 时 对 应 的 地 址 转换 过 程 。 但 很 少 涉及 操作 系统 是 如 何 一 步 一 步 建立 这 个 
映射 关系 的 。 其 实 , 在 labl 和 lab2 中 都 会 涉及 如 何 建立 映射 关系 的 操作 。 在 labl 中 ,我 们 
已 经 碰 到 到 了 简单 的 段 映射 , 即 对 等 映射 关系 ,保证 了 物理 地 址 和 虚拟 地 址 相等 ,也 就 是 通 
过 建立 全 局 段 描述 符 表 ,让 每 个 段 的 基 址 为 0, 从 而 确定 了 对 等 映射 关系 。 

在 lab2 中 ,由 于 在 段 地 址 映射 的 基础 上 进一步 引入 了 页 地 址 映射 ,形成 了 组 合式 的 段 
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Virtual memory map: Permissions 


kernel/user 
Vn + 
1 
i 
+ 0xFB000000 
| RW/-- PTSIZE 
VPT ===. + 0xFAC00000 
V sofas 
KERNTOP == 十 OxF8000000 
1 
| RW/-- KMEMSIZE 
KERNBASE “ee es + 0xC0000000 


图 3-8 使 能 分 页 机 制 后 的 虚拟 地 址 空间 图 


页 式 地 址 映射 。 这 种 方式 虽然 更 加 灵活 ,但 实现 的 复杂 性 也 增加 了 。 在 lab2 中 ,ucore Mit 
算 机 加 电 , 启 动 段 式 管理 机 制 ,启动 段 页 式 管理 机 制 ,在 段 页 式 管理 机 制 下 运行 这 整个 过 程 
中 , 虚 地 址 到 物理 地 址 的 映射 产生 了 多 次 变化 . 接 下 来 我 们 会 逐一 进行 说 明 。 

首先 是 bootloader 地 址 映射 阶段 ,bootloader 完成 了 与 labl 一 样 的 工作 , 即 建 立 了 基于 
段 的 对 等 映射 (请 查看 lab2/boot/bootasm. S 中 的 finish_probe 地 址 处 )。 

接着 进入 了 ucore 启动 页 机 制 前 的 地 址 映射 阶段 ,ucore 建立 了 一 个 一 一 段 映射 关系 ， 
其 中 虚拟 地 址 = 物理 地 址 十 0xC0000000( 请 查看 lab2/kern/init/entry. S 中 的 kern_entry 
函数 ) 。 

再 接 下 来 是 建立 并 使 能 页 表 的 临时 段 页 式 地 址 映射 阶段 ,页 表 要 表示 的 是 线性 地 址 与 
物理 地 址 的 对 应 关系 为 线性 地 址 = 物理 地 址 十 0xC0000000。 这 里 有 一 个 小 技巧 ,让 在 
0 一 4MB 的 线性 地 址 区 域 空间 的 线性 地 址 (0 一 4MB) 对 应 的 物理 地 址 = 线性 地 址 
(0xC0000000 一 0xC0000000 十 4MB) 对 应 的 物理 地 址 ,这 是 通过 lab2/kern/mm/pmm. c 中 
第 321 行 的 代码 实现 的 : 


boot pgdir[0]=boot pgdir[PDX (KERNBASE) ]; 


HEB: 此 时 CPU 在 寻 址 时 只 采用 了 分 段 机 制 。 最 后 并 使 能 分 页 映射 机 制 ( 请 查看 
lab2/kern/mm/pmm. c 中 的 enable_paging 函数 ) ,一旦 执行 完 enable_paging 函数 中 的 加 
R cr0 指令 ( 即 让 CPU 使 能 分 页 机 制 ), 则 接 下 来 的 访问 是 基于 段 页 式 的 映射 关系 了 。 对 于 
(0xC0000000 一 0xC0000000 十 4MB) 这 块 虚 拟 地 址 空间 ,最 终 会 映射 到 哪些 物理 地 址 空间 
中 呢 ? 

由 于 段 映射 关系 没有 改变 ,使 得 经 过 段 映 射 机 制 ,虚拟 地 址 范围 (0xC0000000 一 
0xC0000000 十 4MB) 对 应 的 线性 地 址 = (0 一 4MB) 。 根 据 页 表 建 立 过 程 的 描述 ,我 们 可 知道 
线性 地 址 空间 (0 一 4MB) 与 线性 地 址 空间 (0xC0000000 一 0xC0000000 十 4MB) 对 应 同样 的 物 
理 地 址 ,而 线性 地 址 空间 (0xC0000000 一 0xC0000000 十 4MB) 对 应 的 物理 地 址 空间 为 0 一 
4MB。 这 样 对 于 (0xC0000000~0xC0000000 十 4MB) 这 块 虚拟 地 址 空间 , 段 页 式 的 地 址 映射 
关系 为 虚拟 地 址 一 线性 地 址 十 0xC0000000 王 物理 地 址 十 0xC0000000 。 

注意 : 这 只 是 针对 0xC0000000 一 0xC0000000 十 4MB 这 块 庶 拟 地 址 空间 。 如 果 是 
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0xD0000000~0xD0000000 + 4MB 这 块 虚拟 地 址 空间 , 则 段 页 式 的 地 址 映射 关系 为 虚拟 地 
址 二 线性 地 址 十 0xC0000000 二 物理 地 址 十 0xC0000000 十 0xC0000000。 这 不 是 我 们 需要 的 
映射 关系 ,所 以 0xC0000000 十 4MB 以 上 的 虚拟 地 址 访问 会 出 页 错误 异常 。 

最 后 一 步 完成 收尾 工作 的 正常 段 页 式 地 址 映射 阶段 , 即 首先 调整 段 映射 关系 ,这 是 通过 
加 载 新 的 全 局 段 描 述 符 表 (pmm_init 函数 调用 gdt_init 函数 来 完成 ) 实 现 ,这 时 的 段 映射 关 
系 为 虚拟 地 址 = 线性 地 址 。 然 后 通过 执行 语句 “boot_pgdirL0]=0;? 把 boot_pgdir[Lo] 的 第 
一 个 页 目录 表 项 (0 一 4MB) 清 零 来 取消 临时 的 页 映射 关系 。 至 此 ,新 的 段 页 式 的 地 址 映射 
关系 为 虚拟 地 址 = 线性 地 址 = 物理 地 址 十 90xC0000000。 这 也 形成 了 ucore 操作 系统 的 内 
核 虚 拟 地 址 空间 的 段 页 式 映射 关系 , 即 虚拟 地 址 空间 (KERNBASE ~ KERNBASE + 
KMEMSIZE) = 28 ESB UE 2s fa] (XERNBASE ~ KERNBASE+KMEMSIZE) = 物理 地 址 
25 |] (0~KMEMSIZE). 


3.3.6 自 映 射 机 制 


这 是 扩展 知识 。 上 一 小 节 讲述 了 通过 boot_map_segment 函数 建立 了 基于 一 一 映射 关 
系 的 页 目录 表 项 和 页 表 项 ,这 里 的 映射 关系 为 


Virtual Address (KERNBASE~ KERNBASE+ KMEMSIZE)= Physical Address (0 一 KMEMSIZE) 


这 样 只 要 给 出 一 个 虚拟 地 址 和 一 个 物理 地 址 ,就 可 以 设置 相应 PDE 和 PTE, 就 可 完成 
正确 的 映射 关系 。 

如 果 我 们 这 时 需要 按 虚拟 地 址 的 地 址 顺序 显示 整个 页 目录 表 和 页 表 的 内 容 , 则 要 查找 
页 目录 表 的 页 目录 表 项 内 容 , 根 据 页 目录 表 项 内 容 找到 页 表 的 物理 地 址 ,再 转换 成 对 应 的 虚 
拟 地 址 ,然后 访问 页 表 的 虚拟 地 址 ,搜索 整个 页 表 的 每 个 页 目录 项 。 这 样 过 程 比较 烦琐 。 

我 们 需要 有 一 个 简洁 的 方法 来 实现 这 个 查找 。ucore 做 了 一 个 很 巧妙 的 地 址 自 映 射 设 
计 , 把 页 目录 表 和 页 表 放 在 一 个 连续 的 4MB 虚拟 地 址 空间 中 ,并 设置 页 目录 表 自 身 的 虚 地 
址 与 物理 地 址 映射 关系 。 这 样 在 已 知 页 目录 表 起 始 虚 地 址 的 情况 下 ,通过 连续 扫 撒 这 特定 
的 4MB 虚拟 地 址 空间 ,就 很 容易 访问 每 个 页 目录 表 项 和 页 表 项 内 容 。 

具体 而 言 ,ucore 是 这 样 设计 的 ,首先 设置 了 一 个 常量 ( 见 memlayout. h): 

VPT=0xFAC00000, 这 个 地 址 的 二 进 制 表 示 为 


1111 1010 1100 0000 0000 0000 0000 0000 


高 10 位 为 1111 1010 11, 即 十 进 制 的 1003 ,中 间 10 位 为 0, 低 12 位 也 为 0。 在 pmm. c 
中 有 两 个 全 局 初始 化 变量 。 


pte tx const vpt= (pte tx )VET; 

pæ tx const vpde (pde t* )EGADIR(PIK (VET), POX (VET), 0); 
并 在 pmm_init 函数 执行 了 如 下 语句 : 

boot pgdir [PDK (VET) ]= PADDR (boot pgdir) |PIE P|PIE W; 


这 些 变量 和 语句 有 何 特殊 含义 呢 ? 其 实 vpd 变量 的 值 就 是 页 目录 表 的 起 始 虚 拟 地 址 
0xFAFEB000, 且 它 的 高 10 位 和 中 10 位 是 相等 的 ,都 是 十 进 制 的 1003。 当 执行 了 上 述 语 
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句 , 就 确保 了 vpd 变量 的 值 就 是 页 目录 表 的 起 始 虚 拟 地 址 , 且 vpt 是 页 目录 表 中 第 一 个 目录 
表 项 指向 的 页 表 的 起 始 虚拟 地 址 。 此 时 描述 内 核 虚 拟 空间 的 页 目录 表 的 虚 地 址 为 
0xFAFEB000 ,大 小 为 4KB。 页 表 的 理论 连续 虚拟 地 址 空间 0xFAC00000 一 0xFB000000 ,大 
小 为 4MB。 因 为 这 个 连续 地 址 空间 的 大 小 为 4MB, 可 有 1M 个 PTE, 即 可 映射 4GB 的 地 址 
空间 。 

但 ucore 实际 上 不 会 用 完 这 么 多 项 ,在 memlayout.h 中 定义 了 常量 : 


# define KRMEMSIZE 0x38000000 


表示 ucore 只 支持 896MB 的 物理 内 存 空间 ,这 个 896MB 只 是 一 个 设 定 , 可 以 根据 情况 
改变 , 则 最 大 的 内 核 虚 地 址 为 常量 : 


# define FERNTOP (KERNBASE+ KMEMSIZE)= 0xF8000000 

所 以 最 大 内 核 虚 地 址 KERNTOP 的 页 目录 项 虚拟 地 址 为 
vpd+ OxF8000000/0x400000= OxFAFEB000+ 0x3E0= OxFAFEB3E0 

最 大 内 核 虚 拟 地 址 KERNTOP 的 页 表 项 虚 地 址 为 

vpt+ 0xF8000000/0x1000= OxFRC00000+ OxF8000= OQxFACF8000 


在 pmm. c 中 的 函数 print_pgdir 就 是 基于 ucore 的 页 表 自 映射 方式 完成 了 对 整个 页 目 
录 表 和 页 表 的 内 容 扫描 和 打印 。 注 意 ,这 里 不 会 出 现 某 个 页 表 的 虚拟 地 址 与 页 目录 表 虚 拟 
地 址 相同 的 情况 。 

print pgdir PR RCH ucore 具备 和 qemu 的 info pg 相同 的 功能 , 即 print pgdir 能 够 从 
内 存 中 将 当前 页 表 内 有 效 数据 (PTE_P) 打 印 出 来 。 复制 出 的 格式 如 下 : 

EDE (0e0) c0000000- £8000000 38000000 urw 

1- — PTE (38000) <0000000- £8000000 38000000- rw 

PDE (001) fac00000- fb000000 00400000 - rw 

|-- PIE(000s0) faf00000- fafe0000 0000000 urw 

|- -PIE (00001) fafeb000- fafec000 00001000 - rw 

上 面 中 的 数字 (包括 括号 里 的 ) 都 是 十 六 进 制 。 

主要 的 功能 是 从 页 表 中 将 具备 相同 权限 的 PDE A PTE 项 目 组 织 起 来 。 例 如 : 


PDE (0e0) c0000000- £8000000 38000000 urw 


(1) PDE(0e0); 0e0 表示 PDE 表 中 相 邻 的 224 项 具有 相同 的 权限 。 

(2) c0000000-f8000000: 表示 PDE 表 中 ,这 相 邻 的 两 项 所 映射 的 线性 地 址 的 范围 。 

(3) 38000000: 同样 表示 范围 , 即 f8000000 减 去 c0000000 的 结果 。 

(4) urw: PDE 表 中 所 给 出 的 权限 位 ,u 表示 用 户 可 读 , 即 PITE_U,r 表 示 PTE_P,w 表 
示 用 户 可 写 , 即 PTE_W。 

‘PDE (001) fac00000- fb000000 00400000 — rw 

表示 仅 1 条 连续 的 PDE 表 项 具备 相同 的 属性 。 相 应 地 ,在 这 条 表 项 中 遍历 找到 2 组 


PTE 表 项 ,输出 如 下 : 
。89 。 


|-- PTE (0000) faf00000- fafe0000 00020000 urw 
|—- PIE (00001) fafeb000- fafec000 00001000 - rw 


注意 : 

(1) PTE 中 输出 的 权限 是 PTE 表 中 的 数据 给 出 的 ,并 没有 和 POE 表 中 权限 做 与 运算 。 

(2) 整个 print_pgdir 函数 强调 两 点 : 第 一 是 相同 权限 ,第 二 是 连续 。 

(3) print_pgdir 中 用 到 了 vpt 和 vpd 两 个 变量 。 可 以 参考 VPT 和 PGADDR 两 个 宏 。 

自 映 射 机 制 方便 用 户 态 程序 访问 页 表 。 因 为 页 表 是 内 核 维 护 的 ,用 户 程序 很 难 知 道 自 
己 页 表 的 映射 结构 。VPT 实际 上 在 内 核 地 址 空间 ,我 们 可 以 用 同样 的 方式 实现 一 个 用 户 地 
址 空间 的 映射 (比如 pgdir[TUVPT] 二 PADDR(pgdir)|PTE_P|PTE_U ,注意 ,这 里 不 能 给 写 
权限 ,并 且 pgdir 是 每 个 进程 的 page table, RÆ boot_pgdir) ,这 样 ,用 户 程序 就 可 以 用 和 内 
核 一 样 的 print_pgdir 函数 遍历 自己 的 页 表 结 构 。 


3.4 实验 报告 要 求 


从 网 站 上 下 载 lab2. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab2, 完 成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 
lab2-handin. tar. gz。 最 后 请 一 定 提前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab2 的 注释 ,代码 中 所 有 需要 完成 的 地 方 (Challenge 除外 ) 都 有 lab2 和 “Your 
Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 "Your Code” 替 换 为 自己 的 学 号 ,并 且 将 
所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 


辅助 材料 A 探测 物理 内 在 分 布 和 大 小 的 方法 


操作 系统 需要 知道 整个 计算 机 系统 中 的 物理 内 存 是 如 何 分 布 的 ,哪些 可 用 ,哪些 不 可 
用 。 其 基本 方法 是 通过 BIOS 中 断 调用 来 帮助 完成 的 。BIOS 中 断 调用 必须 在 实 模式 下 进 
行 ,所 以 在 bootloader 进入 保护 模式 前 完成 这 部 分 工作 相对 比较 合适 。 这 些 部 分 由 boot/ 
bootasm. S 中 从 probe_memory 处 到 finish_probe 处 的 代码 部 分 完成 。 通 过 BIOS 中 断 获 
取 内 存 可 调用 参数 为 e820h 的 INT 15h BIOS 中 断 。BIOS 通过 系统 内 存 映射 地 址 描述 符 
(Address Range Descriptor) 格 式 来 表示 系统 物理 内 存 布局 ,其 具体 表示 如 下 所 示 o 


Offset Size Description 

00h 8B base address # 系 统 内 存 块 基地 址 

08h 8B length in bytes # 系 统 内 存 大 小 

10h 4B type of address range FATE 

看 下 面 的 内 容 : 

Values for System Memory Map address type: 

olh memory, available to OS 

02h reserved, not available (e.g. system ROM, memory-mapped device) 

03h. ACPI Reclaim Memory (usable by OS after reading ACPI tables) 

04h, ACPI NVS Memory (OS is required to save this memory between NVS sessions) 


+90 。 


other not defined yet- - treat as Reserved 
INT15h BIOS 中 断 的 详细 调用 参数 如 下 所 示 。 


eax: e820h: INT 15 的 中 断 调用 参数 。 

edx: 534D4150h ( 即 4 个 ASTI FIF "SAP" ,这 只 是 一 个 签名 而 已 。 

dx: 如 果 是 第 一 次 调用 或 内 存 区 域 扫 描 完 毕 , 则 为 0 如果 不 是 , 则 存放 上 次 调用 之 后 的 计数 值 。 
ecx: 保存 地 址 范围 描述 符 的 内 存 大 小 ,应 该 大 于 等 于 208, 

es:di: 指向 保存 地 址 范围 描述 符 结构 的 缓冲 区 ,BrIos 把 信息 写 人 这 个 结构 的 起 始 地 址 。 


此 中 断 的 返回 值 如 下 所 示 。 


cflags 的 CE fii F INT15 中 断 执行 成 功 , 则 不 置 位 ,否则 置 位 。 

eax: 534D4150h ('SMAP')。 

es:di: 指向 保存 地 址 范围 描述 符 的 缓冲 区 ,此 时 缓冲 区 内 的 数据 已 由 Bros 填 写 完 毕 。 
ax: 下 一 个 地 址 范围 描述 符 的 计数 地 址 。 

ecx: 返回 HIos 往 ES:DI 处 写 的 地 址 范围 描述 符 的 字 节 大 小 。 

ah: 失败 时 保存 出 错 代码 。 


这 样 , 通 过 调用 INT 15h BIOS 中 断 ,递增 di 的 值 (20 的 倍数 ) ,让 BIOS 帮 我 们 查找 出 
一 个 一 个 的 内 存 布局 entry, 并 放 入 一 个 保存 地 址 范围 描述 符 结构 的 缓冲 区 中 , 供 后 续 的 
ucore 进一步 进行 物理 内 存 管理 。 这 个 缓冲 区 结构 定义 在 memlayout. h 中 : 


struct e820map { 
int nr mp; 
struct { 
long long addr; 
long long size; 
long type; 
} map [E820MAx] ; 


辅助 材料 B ”实现 物理 内 存 探测 


物理 内 存 探测 是 在 bootasm. S 中 实现 的 ,相关 代码 很 短 ,如 下 所 示 。 


probe_memory: 

// 对 0x8000 处 的 32 位 单元 清 零 , 即 给 位 于 0x8000 处 的 

//struct e820map 的 成 员 变 量 nr map 清 零 

movl$ 0, 0x8000 

xorl % eox, % ebx 

/表示 设置 调用 INT 15h BIOS 中 断后 ,BIOS 返回 的 映射 地 址 描述 符 的 起 始 地 址 
movw$ 0x8004, % di 

start _probe: 
mov1$ 0xE820, % eax // INT 15 的 中 断 调用 参数 

// 设 置地 址 范围 描述 符 的 大 小 为 20B, 其 大 小 等 于 struct e820map 的 成 员 变量 map 的 大 小 
movl$ 20, $ecx 
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// 设 置 eax 为 534D4150h ( 即 4 个 Asc FIF "aap" IE — PAE 
movl$ MP, % edx 
// 调 用 int 0x15 "Wt ,要 求 Bros 返 回 一 个 用 地 址 范围 描述 符 表示 的 内 存 段 信息 
int$ 0x15 
// 如 果 eflags 的 号 位 为 0, 则 表示 还 有 内 存 段 需要 探测 
jnc cont 
// 探 测 有 问题 ,结束 探测 
movw$ 12345, 0x8000 
jmp finish probe 
cont: 
// 设 置 下 一 个 Bros 返 回 的 映射 地 址 描述 符 的 起 始 地 址 
adding 20, & di 
// 递 增 struct e820map 的 成 员 变 量 nr map 
incl 0x8000 
// 如 果 INT0x15 返 回 的 ebx 为 零 ,表示 探测 结束 ,否则 继续 探测 
ampl$ 0, $ebx 
jnz start_probe 
finish_probe: 
上 述 代码 正常 执行 完毕 后 ,在 0x8000 地 址 处 保存 了 从 BIOS 中 获得 的 内 存 分 布 信息 ， 
此 信息 按照 struct e820map 的 设置 来 进行 填充 。 这 部 分 信息 将 在 bootloader 启动 ucore 
后 ,由 ucore 的 page_init 函数 来 根据 struct e820map 的 memmap (定义 了 起 始 地 址 为 
0x8000) 来 完成 对 整个 机 器 中 的 物理 内 存 的 总 体 管理 。 


辅助 材料 C ”链接 地 址 .虚拟 地 址 、 物 理 地 址 、. 加 载 地 址 
以 及 edata/end/text 的 含义 


1. 链接 脚本 简介 

ucore kernel 的 各 个 部 分 由 组 成 kernel 的 各 个 . o BK. a 文件 构成 , 且 各 个 部 分 在 内 存 中 
地 址 位 置 由 ld 工具 根据 kernel. ld 链接 脚本 (Linker Script) 来 设 定 。1d 工具 使 用 命令 -T 指 
定 链 接 脚 本 。 链 接 脚 本 主要 用 于 规定 如 何 把 输入 文件 (各 个 .o 或 .a 文件 ) 内 的 section HLA 
输出 文件 (lab2/bin/kernel, 即 ELF 格式 的 ucore AK) A. 并 控制 输出 文件 内 各 部 分 在 程 
序 地 址 空间 内 的 布局 。 下 面 简 单 分 析 一 下 /lab2/tools/kernel. ld, 来 了 解 一 下 ucore 内 核 的 
地 址 布局 情况 。kernel. ld 的 内 容 如 下 所 示 。 


/* Simple linker script for the ucore kermel. 
See the QW ld 'info' manual ("info 1d") to leam the syntax. * / 


CUTFUT FORMAT ("el f32- 1386", "elf32- 1386", "elf32- i386") 
OUTPUT ARH (i386) 
ENTRY (kem entry) 


SECTIONS { 
/* Toad the kemel at this address: "." means the current address * / 
=p a 


-= 0xC0100000; 


* (.text .stub .text.* .gnu.linkonce.t.* ) 


PROVIDE (etext= .); /* Define the 'etext' symbol to this value* / 


.rodata : { 
* (.rodata .rodata.* .gnu.linkonce.r. * ) 


/* Include debugging information in kemel memory* / 
„stab : { 

PROVIDE( SIAB BEGIN =.); 

* (.stab); 

PROVIDE(__STAB END =.); 


BYTE (0) /* Force the linker to allocate space 
for this section* / 


BYTE (0) /* Force the linker to allocate space 
for this section* / 


/* Adjust the address for the data segment to the next page* / 
.= ALIGN (0x1000) ; 


/* The data segrent * / 
Gata: { 
* (.data) 


« 93 。 


/DISCARD/ : { 
* (.&h frae .note.QW- stack) 
} 
} 


其 实 从 链接 脚本 的 内 容 可 以 大 致 猜 出 它 指定 告诉 链接 器 的 各 种 信息 。 

(1) 内 核 加 载 地 址 : 0xC0100000。 

(2) AD Gta (tt) Hat, ENTRY(Ckern_entry) 。 

(3) CPU 机 器 类 型 : 1386. 

其 最 主要 的 信息 是 告诉 链接 器 各 输入 文件 的 各 section 应 该 怎么 组 合 : 应 该 从 哪个 地 
址 开始 放 , 各 个 section 以 什么 顺序 放 , 分 别 怎么 对 齐 等 ,最 终 组 成 输出 文件 的 各 section, 
除 此 之 外 ,linker script 还 可 以 定义 各 种 符号 (如 . text、. data.. bss 等 ) ,形成 最 终生 成 的 一 
堆 符 号 的 列表 (符号 表 ) ,每 个 符号 包含 了 符号 名 字 、 符 号 所 引用 的 内 存 地 址 ,以 及 其 他 一 些 
属性 信息 。 符 号 实际 上 就 是 一 个 地 址 的 符号 表示 ,其 本 身 不 占用 的 程序 运行 的 内 存 空间 。 

2. 链接 地 址 、 加 载 地 址 .虚拟 地 址 ,物理 地 址 

ucore 设 定 了 ucore 运行 中 的 虚 地 址 空间 ,具体 设置 可 看 lab2/kern/mm/memlayout. h 
中 描述 的 “Virtual memory map” 图 ,可 以 了 解 虚 地 址 和 物理 地 址 的 对 应 关系 。lab2/tools/ 
kernel. ld 描述 的 是 执行 代码 的 链接 地 址 (link_addr) ,比如 内 核 起 始 地 址 是 0xC0100000, 这 
是 一 个 虚 地 址 。 所 以 我 们 可 以 认为 链接 地 址 等 于 虚 地 址 。 在 ucore 建立 内 核 页 表 时 , 设 定 
了 物理 地 址 和 虚 地 址 的 虚实 映射 关系 是 : 


Physical Address+ 0xC0000000= Virtual address 


即 虚 地 址 和 物理 地 址 之 间 有 一 个 偏 移 。 但 boot loader 把 ucore kernel 加 载 到 内 存 时 ,采用 
的 是 加 载 地 址 (Load Address) ,这 是 由 于 ucore 还 没有 运行 , 即 还 没有 启动 页 表 映 射 ,导致 
这 时 采用 的 寻 址 方式 是 段 寻 址 方式 ,用 的 是 boot loader 在 初始 化 阶段 设置 的 段 映 射 关 系 ， 
其 映射 关系 (可 参看 bootasm. S 的 末尾 处 有 关 段 描述 符 表 的 内 容 ) 如 下 : 


Linear Address= Physical Address= Virtual Address 
查看 bootloader 的 实现 代码 bootmain: ; bootmain. c: 


readseg (ph- >p va & OxFFFFFF, ph- >p memsz, ph->p offset); 


这 里 的 ph—>p_va=0xCOXXXXXX. WE ld 工具 根据 kernel. ld 设置 的 链接 地 址 , 且 
链接 地 址 等 于 虚拟 地 址 。 考 虑 到 ph — > p_va & OxFFFFFF = = 0x0XXXXXX, Jif UA 
bootloader 加 载 ucore kernel 的 加 载 地 址 是 0x0XXXXXX, 这 实际 上 是 ucore 内 核 所 在 的 物 
理 地 址 。 简 言 之 ,OS 的 链接 地 址 (Link Address) 在 tools/kernel. ld 中 设置 好 了 ,是 一 个 虚 
地 址 (Virtual Address); 而 ucore kernel 的 加 载 地 址 (Load Address) 在 boot loader 中 的 
bootmain 函数 中 指定 ,是 一 个 物理 地 址 。 

总 结 一 下 ,ucore 内 核 的 链接 地 址 二 二 ucore 内 核 的 虚拟 地 址 ;boot loader 加 载 ucore 内 
核 用 到 的 加 载 地 址 = 二 ucore 内 核 的 物理 地 址 。 

3. edata end, text 的 含义 

在 基于 ELF 执行 文件 格式 的 代码 中 ,存在 一 些 对 代码 和 数据 的 表述 ,基本 概念 如 下 。 

= Bhs 


(1) BSS 段 (BSS Segment) : 指 用 来 存放 程序 中 未 初始 化 的 全 局 变量 的 内 存 区 域 。BSS 
是 英文 Block Started by Symbol 的 简称 。BSS 段 属于 静态 内 存 分 配 。 

(2) 数据 段 (Data Segment) : 指 用 来 存放 程序 中 已 初始 化 的 全 局 变量 的 一 块 内 存 区 域 。 
数据 段 属 于 静态 内 存 分 配 。 

(3) 代码 段 (Code Segment/Text Segment): 指 用 来 存放 程序 执行 代码 的 一 块 内 存 区 
域 。 这 部 分 区 域 的 大 小 在 程序 运行 前 就 已 经 确定 ,并 且 内 存 区 域 通 常 属 于 只 读 , 某 些 架构 也 
允许 代码 段 为 可 写 , 即 允许 修改 程序 。 在 代码 段 中 ,也 有 可 能 包含 一 些 只 读 的 常数 变量 , 例 
如 字符 串 常量 等 。 

在 lab2/kern/init/init.c 的 kern_init 函数 中 ,声明 了 外 部 全 局 变量 , 


exter char edata[],end[]; 


但 搜寻 所 有 源码 文件 *. [chj, 没 有 发 现 有 这 两 个 变量 的 定义 。 那 这 两 个 变量 从 哪里 来 
的 呢 ? 其 实在 lab2/tools/kernel. ld 中 ,可 以 看 到 如 下 内 容 : 


PROVIDE (ence .); 


这 里 的 “. ”表示 当前 地 址 ,. text 表示 代码 段 起 始 地 址 ,. data 也 是 一 个 地 址 ,可 以 看 出 ， 
它 不 仅 代表 了 代码 段 的 结束 地 址 ,也 是 数据 段 的 起 始 地 址 。 以 此 类 推 ,edata 表示 数据 段 的 
结束 地 址 ,. bss 表示 数据 段 的 结束 地 址 和 BSS 段 的 起 始 地 址 ,end 表示 BSS 段 的 结束 地 址 。 

这 样 回头 看 kerne_init 中 的 外 部 全 局 变量 ,可 知 edata[ ] 和 end[] 这 些 变量 是 ld 根据 
kernel. ld 链接 脚本 生成 的 全 局 变量 ,表示 相应 段 的 起 始 地 址 或 结束 地 址 等 ,它们 不 在 任何 
一 个 . S、.c 或 .h 文件 中 定义 。 
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S48 实验 3: 虚拟 内 存 管 理 


4.1 实验 目的 


(1) 了 解 虚拟 内 存 的 Page Fault 异常 处 理 实现 。 
(2) 了 解 页 替换 算法 在 操作 系统 中 的 实现 。 


4.2 实验 内 容 


做 完 实 验 2 后 ,大 家 可 能 了 解 并 掌握 了 物理 内 存 管 理 中 的 连续 空间 分 配 算法 的 具体 实 
现 以 及 如 何 建 立 二 级 页 表 。 本 次 实验 是 在 实验 2 的 基础 上 ,借助 于 页 表 机 制 和 实验 1 中 涉 
及 的 中 断 异常 处 理 机 制 ,完成 Page Fault 异常 处 理 和 FIFO 页 替换 算法 的 实现 ,结合 磁盘 提 
供 的 缓存 空间 ,从 而 能 够 支持 虚 存 管理 ,提供 一 个 比 实际 物理 内 存 空间 “更 大 ”的 虚拟 内 存 空 
间 给 系统 使 用 。 实 际 操作 系统 中 的 虚拟 内 存 管理 设计 与 实现 是 相当 复杂 的 ,涉及 与 进程 管 
理 系统 文件 系统 等 的 交叉 访问 。 如 果 大 家 有 余力 ,可 以 尝试 完成 扩展 练习 ,实现 extended 
clock 页 替换 算法 。 


4.2.1 练习 


练习 0 : 填写 已 有 实验 。 

本 实验 依赖 实验 1 和 实验 2。 请 把 实验 1 和 实验 2 的 代码 填 和 人 本 实验 中 代码 中 有 
labl ,lab2 的 注释 相应 部 分 。 

练习 1: 给 未 被 映射 的 地 址 映射 上 物理 页 (需要 编程 ) 。 

完成 do_pgfault(mm/vmm, c) 函 数 ,给 未 被 映射 的 地 址 映射 上 物理 页 。 设 置 访问 权限 
的 时 候 需 要 参考 页 面 所 在 VMA 的 权限 ,同时 需要 注意 映射 物理 页 时 需要 操作 内 存 控制 结 
构 所 指定 的 页 表 , 而 不 是 内 核 的 页 表 。 

注意 : 在 lab2 EXERCISE 1 处 填写 代码 。 执 行 make qemu 后 ,如 果 通 过 check_pgfault 
函数 的 测试 后 ,会 有 "check_pgfault() succeeded1” 的 输出 ,表示 练习 1 基本 正确 。 

练习 2: 补充 完成 基于 FIFO 的 页 面 替换 算法 (需要 编程 ) 。 

完成 vmm. c 中 的 do_pgfault 函数 ,并 且 在 实现 FIFO 算法 的 swap_fifo. e 中 完成 map_ 
swappable 和 swap_out_vistim RMX, Wat swap 的 测试 。 

注意 : 在 lab2 EXERCISE 2 处 填写 代码 。 执 行 make qemu 后 ,如 果 通 过 check_swap 
函数 的 测试 后 ,会 有 “check_swap() succeeded1” 的 输出 ,表示 练习 2 基本 正确 。 

扩展 练习 Challenge: 实现 识别 dirty bit 的 extended clock 页 替换 算法 (需要 编程 ) 。 

Challenge 部 分 不 是 必 做 部 分 ,不 过 做 正确 最 后 会 酌情 加 分 。 需 写 出 有 详细 的 设计 、 分 析 
和 测试 的 实验 报告 。 完 成 出 色 的 可 获得 适当 加 分 (基本 实验 完成 后 一 周 内 完成 ,单独 提交 ) 。 

= BE 


4.2.2 项 目 组 成 
目录 结构 图 如 图 4-1 所 示 。 


|--boot 
-- kern 
-- driver 


-- ide.c 

*-- ide.h 

-- fs 

-- fs.h 

-- swapfs.c 


-- default_pmm.c 
-- default_pmm.h 
-- memlayout.h 
-- mmu.h 

-- pmm.c 

-- pmm.h 

-- swap.c 

-- swap.h 

-- swap_fifo.c 

-- swap_fifo.h 

-- vmm.c 

`=- vmm.h 

-- sync 

`=- trap 

-- trap.c 


libs 
-- list.h 


`=- tools 


图 4-1 目录 结构 图 


相对 于 实验 2, 实 验 3 主要 增加 的 文件 有 ide. cide. h, fs. h,swapfs. h,swapfs. c, swap. 
cvswap.h、swap_fifo. cswap_fifo. h,vmm. c 和 vmm.h。 主 要 修改 的 文件 有 init. c.default_ 
pmm. c,default_pmm. h, pmm. c 和 pmm. n。 除 这 些 文件 以 外 的 文件 为 其 他 需要 用 到 的 重 
要 文件 。 主 要 改动 如 下 。 

(1) kern/mm/default_pmm. [ch]; 实现 基于 struct pmm_manager 类 框架 的 FistFit 物 
理 内 存 分 配 参考 实现 (分 配 最 小 单位 为 页 , 即 4096B) ,相关 分 配 页 和 释放 页 等 实现 会 间接 被 
kmalloc/kfree 等 函数 使 用 。 

(2) kern/mm/pmm. [ch]: pmm. h 定义 物理 内 存 分 配 类 框架 struct pmm_manager。 
pmm.c 包含 了 对 此 物理 内 存 分 配 类 框架 的 访问 ,以 及 与 建立 ,修改 .访问 页 表 相关 的 各 种 函 
数 实 现 。 在 本 实验 中 会 用 到 kmalloc/kfree 等 函数 。 

(3) libs/list. h: 定义 了 通用 双向 链表 结构 以 及 相关 的 查找 .插入 等 基本 操作 ,这 是 建立 
基于 链表 方法 的 物理 内 存 管理 (以 及 其 他 内 核 功能 ) 的 基础 。 在 labo 文档 中 有 相关 描述 。 
其 他 有 类 似 双 向 链表 需求 的 内 核 功能 模块 可 直接 使 用 list. h 中 定义 的 函数 。 在 本 实验 中 会 
多 次 用 到 插入 、 删 除 等 操作 函数 。 

egg = 


(4) kern/driver/ide. [ch]; 定义 和 实现 了 内 存 页 swap BL tel JT Ta AY RAAE KY ES BR 
作 支 持 ; 在 本 实验 中 会 涉及 通过 swapfs_* 函数 间接 使 用 文件 中 的 函数 , 故 了 解 即 可 。 

(5) kern/fs/ * : 定义 和 实现 了 内 存 页 swap 机 制 所 需 从 磁盘 读数 据 到 内 存 页 和 写 内 存 
数据 到 磁盘 上 的 函数 swapfs_read/swapfs_write。 在 本 实验 中 会 涉及 使 用 这 两 个 函数 。 

(6) kern/mm/memlayout. h: 修改 了 struct Page, 增 加 了 两 项 pra_« 成 员 结构 ,其 中 
pra_page_link 可 以 用 来 建立 描述 各 个 页 访问 情况 (比如 根据 访问 先后 ) 的 链表 。 在 本 实验 
中 会 涉及 使 用 这 两 个 成 员 结构 ,以 及 le2page 等 宏 。 

(7) kern/mm/vmm. [ch]: vmm. h 描述 了 mm_struct、vma_struct 等 表述 可 访问 的 虚 
存 地 址 访问 的 一 些 信息 ,下 面 会 进一步 详细 讲解 。vmm. c 涉及 mm, vma 结构 数据 的 创建 、 
销毁 .查找 .插入 等 函数 ,这 些 函 数 在 check_vma,check_vmm 等 中 被 使 用 ,理解 即 可 。page 
fault 处 理 相关 的 do_pgfault 函数 是 本 次 实验 需要 设计 完成 的 。 

(8) kern/mm/swap. [ch]: 定义 了 实现 页 蔡 换算 法 的 类 框架 struct swap_manager。 
swap.c 包含 了 对 此 页 蔡 换 算法 类 框架 的 初始 化 、 页 换 入 / 换 出 等 各 种 函数 实现 。 重 点 是 要 
理解 何 时 调用 swap_out 和 swap_in 函数 。 如 何 实现 在 此 框架 下 连接 具体 的 页 蔡 换 算法 ? 
check_swap 函数 以 及 被 此 函数 调用 的 _fifo_check_swap 函数 完成 了 对 本 次 实验 中 的 练习 
2: FIFO 页 替换 算法 基本 正确 性 的 检查 ,可 了 解 , 便 于 知道 为 何 产生 错误 。 

(9) kern/mm/swap_fifo. [ch]: FIFO 页 替换 算法 基于 类 框架 struct swap_manager 的 
简化 实现 ,主要 被 swap. c 的 相关 函数 调用 。 重 点 是 _fifo_map_swappable 函数 (可 用 于 建立 
页 访问 属性 和 关系 ,比如 访问 时 间 的 先后 顺序 ) 和 _fifo_swap_out_victim 函数 (可 用 于 实现 
挑选 出 要 换 出 的 页 ) ,当然 换 出 哪个 页 需要 借助 于 fifo_map_swappable 函数 建立 的 某 种 属 
性 关系 ,已 选 出 合适 的 页 。 

(10) kern/mm/mmu. h; 其 中 定义 额 也 页 表 项 的 各 种 属性 位 ,比如 PTE_P\PET_D\ 
PET_A 等 ,对 于 实现 扩展 实验 的 clock 算法 会 有 帮助 。 

本 次 实验 的 主要 练习 集中 在 vmm. c 中 的 do_pgfault 函数 和 swap_fifo. c 中 的 _fifo_ 
map_swappable 函数 、fifo_swap_out_victim 函数 。 

编译 并 运行 代码 的 命令 如 下 : 

make 

make gem 


则 可 以 得 到 如 附录 所 示 的 显示 内 容 ( 仅 供 参考 ,不 是 标准 答案 输出 ) 。 


4.3 虚拟 内 存 管理 概述 


4.3.1 基本 原理 概述 


什么 是 虚拟 内 存 ? 简单 地 说 , 它 是 指 程序 员 或 CPU“ 需 要 ”和 直接 “看 到 ”的 内 存 , 这 其 
实 暗示 了 两 点 。 
(1) 虚拟 内 存单 元 不 一 定 有 实际 的 物理 内 存单 元 对 应 , 即 实际 的 物理 内 存单 元 可 能 不 存在 。 
(2) 如 果 虚 拟 内 存单 元 对 应 有 实际 的 物理 内 存单 元 , 那 两 者 的 地 址 一 般 是 不 相等 的 。 
通过 操作 系统 的 某 种 内 存 管理 和 映射 技术 可 建立 虚拟 内 存 与 实际 的 物理 内 存 的 对 应 关系 ， 
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使 得 程序 员 或 CPU 访问 的 虚拟 内 存 地 址 会 转换 为 另外 一 个 物理 内 存 地 址 。 

那么 这 个 “虚拟 ?的 作用 或 意义 在 哪里 体现 呢 ? 在 操作 系统 中 ,虚拟 内 存 其 实 包 含 多 个 
虚拟 层次 ,在 不 同 的 层次 体现 了 不 同 的 作用 。 首 先 , 有 了 分 页 机 制 后 ,程序 员 或 CPU 直接 
“看 到 ”的 地 址 已 经 不 是 实际 的 物理 地 址 了 ,这 已 经 有 一 层 虚 拟 化 ,可 简称 为 内 存 地 址 虚拟 
化 。 有 了 内 存 地 址 虚拟 化 ,就 可 以 通过 设置 页 表 项 来 限定 软件 运行 时 的 访问 空间 ,确保 软件 
运行 不 越界 ,完成 内 存 访问 保护 的 功能 。 

通过 内 存 地 址 虚拟 化 ,可 以 使 得 软件 在 没有 访问 某 虚拟 内 存 地 址 时 不 分 配 具 体 的 物理 
内 存 , 而 只 有 在 实际 访问 某 虚 拟 内 存 地 址 时 ,操作 系统 再 动态 地 分 配 物 理 内 存 , 建 立 虚拟 内 
存 到 物理 内 存 的 页 映射 关系 ,这 种 技术 属于 lazy load 技术 ,简称 按 需 分 页 (Demand 
Paging) 。 把 不 经 常 访问 的 数据 所 占 的 内 存 空 间 临 时 写 到 硬盘 上 ,这样 可 以 腾 出 更 多 的 空闲 
内 存 空间 给 经 常 访问 的 数据 ; 当 CPU 访问 到 不 经 常 访问 的 数据 时 ,再 把 这 些 数 据 从 硬盘 读 
人 到 内 存 中 ,这 种 技术 称 为 页 换 入 换 出 (Page Swap In/Out)。 这 种 内 存 管理 技术 给 了 程序 
员 更 大 的 内 存 “ 空 间 ”, 我 们 称 为 内 存 空 间 虚 拟 化 。 


4.3.2 实验 执行 流程 概述 


本 次 实验 主要 完成 ucore 内 核对 虚拟 内 存 的 管理 工作 。 其 总 体 设 计 思 路 比较 简单 , 即 
首先 完成 初始 化 虚拟 内 存 管理 机 制 , 即 需要 设置 好 哪些 页 需要 放 在 物理 内 存 中 ,哪些 页 不 需 
要 放 在 物理 内 存 中 ,而 是 可 被 换 出 到 硬盘 上 ,并 涉及 完善 建立 页 表 映 射 、 页 错误 异常 处 理 操 
作 等 函数 实现 。 然 后 就 执行 一 组 访 存 测试 ,看 看 我 们 建立 的 页 表 项 是 否 能 够 正确 完成 虚实 
地 址 映射 ,是 否 正 确 描述 了 虚拟 内 存 页 在 物理 内 存 中 还 是 在 硬盘 上 ,是 否 能 够 正确 把 虚拟 内 
存 页 在 物理 内 存 和 硬盘 之 间 进 行 传递 ,是否 正确 实现 了 页 面 蔡 换算 法 等 。lab3 的 总 体 执 行 
流程 如 下 。 

首先 是 初始 化 过 程 。 参 考 ucore 总 控 函 数 init 的 代码 ,可 以 看 到 在 调用 完成 虚拟 内 存 
初始 化 的 vmm_init 函数 之 前 ,需要 首先 调用 pmm_init 函数 完成 物理 内 存 的 管理 ,这 也 是 
lab2 已 经 完成 的 内 容 。 接 着 是 执行 中 断 和 异常 相关 的 初始 化 工作 , 即 调用 pic_init 函数 和 
idt_init 函数 等 ,这 些 工作 与 labl 的 中 断 异 常 初始 化 工作 的 内 容 相同 。 

调用 完 idt_init 函数 之 后 ,将 进一步 调用 三 个 lab3 中 才 有 的 新 函数 vmm_init ide_init 
All swap_init。 这 三 个 函数 设计 了 本 次 实验 中 的 两 个 练习 。 第 一 个 函数 vmm_init 是 检查 练 
习 1 是否 正确 实现 了 。 为 了 表述 不 在 物理 内 存 中 的 “合法 ?虚拟 页 ,需要 有 数据 结构 来 描述 
这 样 的 页 ,为 此 ucore 建立 了 mm_struct 和 vma_struct 数据 结构 (在 4. 3. 3 小 节 中 有 进一步 
详细 描述 ) ,假定 我 们 已 经 描述 好 了 这 样 的 “合法 虚拟 页 , 当 ucore 访问 这 些 “ 合 法 ?虚拟 页 
时 ,会 由 于 没有 虚实 地 址 映射 而 产生 页 错误 异常 。 如 果 我 们 正确 实现 了 练习 1, 则 do_ 
pgfault 函数 会 申请 一 个 空闲 物理 页 ,并 建 好 虚实 映射 关系 ,从 而 使 得 这 样 的 “合法 ?虚拟 页 
有 实际 的 物理 页 帧 对 应 。 这 样 练习 1 就 算 完成 了 。 

ide_init 和 swap_init 是 为 练习 2 准备 的 。 由 于 页 面 置 换算 法 的 实现 存在 对 硬盘 数据 块 
的 读 写 ,所 以 ide_init 就 是 完成 对 用 于 页 换 入 换 出 的 硬盘 (简称 swap 硬盘 ) 的 初始 化 工作 。 
完成 ide_init 函数 后 ,ucore 就 可 以 对 这 个 swap 硬盘 进行 读 写 操作 了 。swap_init 函数 首先 
建立 swap_manager,swap_manager 是 完成 页 面 蔡 换 过 程 的 主要 功能 模块 ,其 中 包含 了 页 面 
置换 算法 的 实现 (具体 内 容 可 参考 4. 5 节 )。 然 后 会 进一步 调用 执行 check_swap 函数 在 内 
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核 中 分 配 一 些 页 ,模拟 对 这 些 页 的 访问 ,这 会 产生 页 错误 异常 。 如 果 我 们 正确 实现 了 练习 
2 ,就 可 通过 do_pgfault 来 调用 swap_map_swappable 函数 来 查询 这 些 页 的 访问 情况 ,并 间 
接 调 用 实现 页 面 置换 算法 的 相关 函数 ,把 “不 常用 ”的 页 换 出 到 磁盘 上 。 

ucore 在 实现 上 述 技术 时 ,需要 解决 三 个 关键 问题 。 

(1) 当 程 序 运 行 中 访问 内 存 产 生 page fault 异常 时 ,如 何 判 定 这 个 引起 异常 的 虚拟 地 址 
内 存 访 问 是 越界 、 写 只 读 页 的 “非法 地 址 ”访问 ,还 是 由 于 数据 被 临时 换 出 到 磁盘 上 ,或 还 没 
有 分 配 内 存 的 “合法 地 址 ”访问 ? 

(2) 何 时 进行 请 求 调 页 /页 换 和 人 换 出 处 理 ? 

(3) 如 何在 现 有 ucore 的 基础 上 实现 页 蔡 换算 法? 

接 下 来 将 进一步 分 析 完 成 lab3 主要 注意 的 关键 问题 和 涉及 的 关键 数据 结构 。 


4.3.3 关键 数据 结构 和 相关 函数 分 析 


对 于 第 一 个 问题 的 出 现 , 在 于 实验 2 中 有 关内 存 的 数据 结构 和 相关 操作 都 是 直接 针对 
实际 存在 的 资源 一 一 物理 内 存 空间 的 管理 ,没有 从 一 般 应 用 程序 对 内 存 的 “需求 ”考虑 , 即 需 
要 有 相关 的 数据 结构 和 操作 来 体现 一 般 应 用 程序 对 虚拟 内 存 的 “需求 ”。 一 般 应 用 程序 对 虚 
拟 内 存 的 “需求 ”与 物理 内 存 空 间 的 “供给 ”没有 直接 的 对 应 关系 ,ucore 是 通过 page fault 异 
常 处 理 来 间接 完成 这 两 者 之 间 的 衔接 。 

page_fault 函数 不 知道 哪些 是 “合法 ”的 虚拟 页 ,原因 是 ucore 还 缺少 一 定 的 数据 结构 来 描 
述 这 种 不 在 物理 内 存 中 的 “合法 ”虚拟 页 。 为 此 ucore 通过 建立 mm_struct 和 vma_struct 数据 
结构 ,描述 了 ucore 模拟 应 用 程序 运行 所 需 的 合法 内 存 空间 。 当 访问 内 存 产生 page fault 异常 
时 ,可 获得 访问 的 内 存 的 方式 ( 读 或 写 ) 以 及 具体 的 虚拟 内 存 地 址 ,这 样 ucore 就 可 以 查询 此 地 
址 ,看 是 否 属于 vma_struct 数据 结构 中 描述 的 合法 地 址 范围 中 ,如 果 在 , 则 可 根据 具体 情况 进 
行 请 求 调 页 /页 换 入 换 出 处 理 ( 这 就 是 练习 2 涉及 的 部 分 ) ;如果 不在 , 则 报错 。mm_struct 和 
vma_struct 数据 结构 结合 页 表 表 示 虚 拟 地 址 空间 和 物理 地 址 空间 的 示意 图 如 图 4-2 所 示 。 


虚拟 内 存 空间 物理 内 存 空间 
mm_struct 物理 页 帧 
m mmap_struct 二 级 页 表 结 构 
“eh ” 
rev next 合法 ”的 虚拟 页 
物理 页 帧 
vma_struct] Page in vmal 
page in vmal 
| mmm | pee 
| list_link 
prev next TET 
vma_struct2 page in vma2 
eee page in vma2 物理 页 帧 
list_link 
‘al prev nea page in vma2 


图 4-2 虚拟 地 址 空间 和 物理 地 址 空间 的 示意 图 
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在 ucore 中 描述 应 用 程序 对 虚拟 内 存 “ 需 求 ”的 数据 结构 是 vma_struct (定义 在 vmm. h 
中 ) ,以 及 针对 vma_struct 的 函数 操作 。 这 里 把 一 个 vma_struct 结构 的 变量 简称 为 vma 变 
量 。vma_struct 的 定义 如 下 : 

struct wa struct { 


//the set of vm using the same PDT 
struct m struct * vm m; 


uintptr_t vm start; //stact address of vma 
uintptr_t wm end; //eod address of a 
uint32 t wm flags; //flagsess of wa 


//linear list link which sorted by start address of vma 
list entry t list_link; 

F 

vm_start 和 vm_end 描述 了 一 个 连续 地 址 的 虚拟 内 存 空 间 的 起 始 位 置 和 结束 位 置 , 这 
两 个 值 都 应 该 是 PGSIZE 对 齐 的 ,而 且 描 述 的 是 一 个 合理 的 地 址 空间 范围 ( 即 严格 确保 
vm_start<vm_end); list_link 是 一 个 双向 链表 ,按照 从 小 到 大 的 顺序 把 一 系列 用 vma_ 
struct 表示 的 虚拟 内 存 空间 链接 起 来 ,并 且 还 要 求 这 些 链 起 来 的 vma_struct 应 该 是 不 相交 
的 , 即 vma 之 间 的 地 址 空间 无 交集 ;vm_flags 表示 了 这 个 虚拟 内 存 空 间 的 属性 ,目前 的 属性 
如 下 


# define WM READ 000000001 // 只 读 
# define WM WRITE 0x00000002 // 可 读 写 
# define VM EXEC 000000004 // 可 执行 


vm_mm 是 一 个 指针 ,指向 一 个 比 vma_struct 更 高 的 抽象 层次 的 数据 结构 mm_struct， 
这 里 把 一 个 mm_struct 结构 的 变量 简称 为 mm 变量 。 这 个 数据 结构 表示 了 包含 所 有 虚拟 
内 存 空间 的 共同 属性 ,具体 定义 如 下 : 


struct m struct { 
//linear list link which sorted by start address of vma 
list entry 七 rmap list; 
//axcrent accessed vm, used for speed purpose 
struct vma_struct * map cache; 


pæ tx pgdir; //the PDT of these va 
int map_count; //the count of these vma 
void* sm priv; //the private data for swap manager 


p 


mmap_list 是 双向 链表 头 ,链接 了 所 有 属于 同一 页 目录 表 的 虚拟 内 存 空 间 ,mmap_ 

cache 是 指向 当前 正在 使 用 的 虚拟 内 存 空间 ,由 于 操作 系统 执行 的 “局 部 性 ?原理 ,当前 正在 

用 到 的 虚拟 内 存 空间 在 接 下 来 的 操作 中 可 能 还 会 用 到 ,这 时 就 不 需要 查 链表 ,而 是 直接 使 用 

此 指针 就 可 找到 下 一 次 要 用 到 的 虚拟 内 存 空 间 。 由 于 mmap_cache 的 引入 ,可 使 得 mm_ 

struct 数据 结构 的 查询 加 速 30% 以 上 。pgdir 所 指向 的 就 是 mm_struct 数据 结构 所 维护 

的 页 表 。 通 过 访问 pgdir 可 以 查找 某 虚 拟 地 址 对 应 的 页 表 项 是 否 存在 以 及 页 表 项 的 属性 
TOL > 


等 。map_count 记录 mmap_list 里 面 链接 的 vma_struct 的 个 数 。sm_priv 指向 用 来 链接 记 
录 页 访问 情况 的 链表 头 , 这 建立 了 mm_struct 和 后 续 要 讲 到 的 swap_manager 之 间 的 联系 。 

涉及 vma_struct 的 操作 函数 也 比较 简单 ,主要 包括 3 个 。 

(1) vma_create: 创建 vma。 

(2) insert_vma_struct; 插入 一 个 vma, 

(3) find_vma: 查询 vma. 

vma_create 函数 根据 输入 参数 vm_start, vm_end, vm_flags 来 创建 并 初始 化 描述 一 个 
虚拟 内 存 空间 的 vma_struct 结构 变量 。insert_vma_struct 函数 完成 把 一 个 vma 变量 按照 
其 空间 位 置 L[vma 一 之 vm_start,vma 一 之 vm_end] 从 小 到 大 的 顺序 插入 所 属 的 mm 变量 中 
的 mmap_list 双向 链表 中 。find_vma 根据 输入 参数 addr 和 mm 变量 ,查找 在 mm 变量 中 的 
mmap_list 双向 链表 中 某 个 vma 包含 此 addr. Bl vma— >vm_start<= addr <vma— > 
end。 这 三 个 函数 与 后 续 讲 到 的 page fault 异常 处 理 有 紧密 联系 。 

涉及 mm_struct 的 操作 函数 比较 简单 ,只 有 mm_create 和 mm_destroy 两 个 函数 ,从 字 
面 意思 就 可 以 看 出 是 完成 mm_struct 结构 的 变量 创建 和 删除 。 在 mm_create 中 用 kmalloc 
分 配 了 一 块 空间 ,所 以 在 mm_destroy 中 也 要 对 应 进行 释放 。 在 ucore 运行 过 程 中 ,会 产生 
描述 虚拟 内 存 空间 的 vma_struct 结构 ,所 以 在 mm_destroy 中 也 要 对 这 些 mmap_list 中 的 
vma 进行 释放 。 


4.4 Page Fault 异常 处 理 


对 于 第 4. 3 节 提 到 的 第 二 个 关键 问题 ,解决 的 关键 是 page fault 异常 处 理 过 程 中 主要 
涉及 的 函数 一 一 do_pgfault。 在 程序 的 执行 过 程 中 由 于 某 种 原因 (页 框 不 存在 / 写 只 读 页 
等 ) 而 使 CPU 无 法 最 终 访问 到 相应 的 物理 内 存单 元 , 即 无 法 完成 从 虚拟 地 址 到 物理 地 址 的 
映射 时 ,CPU 会 产生 一 次 页 错误 异常 ,从 而 需要 进行 相应 的 页 错误 异常 服务 例 程 。 这 个 
页 错误 异常 处 理 的 时 机 就 是 求 调 页 /页 换 入 换 出 /处 理 的 执行 时 机 。 当 相关 处 理 完成 后 ， 
页 错误 异常 服务 例 程 会 返回 到 产生 异常 的 指令 处 重新 执行 ,使 得 软件 可 以 继续 正常 运行 
FE. 

具体 而 言 , 当 启动 分 页 机 制 以 后 ,如 果 一 条 指令 或 数据 的 虚拟 地 址 所 对 应 的 物理 页 框 不 
在 内 存 中 或 者 访问 的 类 型 有 错误 (比如 写 一 个 只 读 页 或 用 户 态 程序 访问 内 核 态 的 数据 等 )， 
就 会 发 生 页 错误 异常 。 产 生 页 面 异 常 的 主要 原因 如 下 。 

(1) 目标 页 面 不 存在 (页 表 项 全 为 0, 即 该 线性 地 址 与 物理 地 址 尚未 建立 映射 或 者 已 经 
撤销 ) 。 

(2) 相应 的 物理 页 面 不 在 内 存 中 (页 表 项 非 空 ,但 Present 标志 位 王 0, 比 如 在 swap 分 
区 或 磁盘 文件 上 ) ,这 将 在 下 面 介绍 换 页 机 制 实现 时 进一步 讲解 如 何 处 理 。 

(3) 访问 权限 不 符合 (此 时 页 表 项 P 标 志 =1, 比 如 ,试图 写 只 读 页 面 )。 

当 出 现 上 面 情况 之 一 ,就 会 产生 页 面 page fault(# PF) 异 常 。 产 生 异 常 的 线性 地 址 存 
储 在 CR2 中 ,并 且 将 是 page fault 的 产生 类 型 保存 在 error code 中 ,比如 bit 0 表示 是 否 
PTE_P X 0. bit 1 表示 是 否 write 操作 。 

产生 页 错误 异常 后 ,CPU 硬件 和 软件 都 会 做 一 些 事 情 来 应 对 此 事 。 首 先 页 错误 异常 也 
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是 一 种 异常 ,所 以 针对 一 般 异 常 的 硬件 处 理 操作 是 必须 要 做 的 , 即 CPU 在 当前 内 核 栈 保存 
当前 被 打 断 的 程序 现场 , 即 依次 压 人 当前 被 打 断 程序 使 用 的 Eflags CS, EIP, Error Code; H 
于 页 错误 异常 的 中 断 号 是 0xE,CPU 把 异常 中 断 号 0xE 对 应 的 中 断 异 常服 务 例 程 的 地 址 
(vectors. S 中 的 标号 vectorl4 处 ) 加 载 到 CS 和 EIP 寄存 器 中 ,开始 执行 中 断 服务 例 程 。 这 
时 ucore 开始 处 理 异常 中 断 ,首先 需要 保存 硬件 没有 保存 的 寄存 器 。 在 vectors. S 中 的 标号 
vectorl4 处 先 把 中 断 号 压 和 人 内核 栈 ,然后 在 trapentry. S 中 的 标号 _alltraps 处 把 DS, ES 和 
其 他 通用 寄存 器 都 压 栈 。 自 此 ,被 打 断 的 程序 现场 被 保存 在 内 核 栈 中 。 接 下 来 ,在 trap. c 
的 trap 函数 开始 了 中 断 服 务 例 程 的 处 理 流 程 ,大 致 调 用 关系 为 


trap> trap dispatch >pgfault handler>do pgfault 
下 面 需 要 具体 分 析 一 下 do_pgfault 函数 。do_pgfault 的 调用 关系 如 图 4-3 所 示 。 


find_vma 


get_pte 
swapfs_read 
swap_in 
trap |=} trap_dispatch |} pgfault_handler-—=| do r 
page_ref_inc 
aa 


page_remove_pte 


swap_map_swappable 


pgdir_alloc_page 


page_ref 


图 4-3 do_pgfault 的 调用 关系 图 


产生 页 错误 异常 后 ,CPU 把 引起 页 错误 异常 的 虚拟 地 址 装 到 寄存 器 CR2 中 ,并 给 出 了 
出 错 码 (t{ 一 之 tf_err) ,指示 引起 页 错误 异常 的 存储 器 访问 的 类 型 。 而 中 断 服务 例 程 会 调用 
页 错误 异常 处 理 函数 do_pgfault 进行 具体 处 理 。 页 错误 异常 处 理 是 实现 按 需 分 页 .swap 
in/out 的 关键 之 处 。 

ucore 中 do_pgfault 函数 是 完成 页 错误 异常 处 理 的 主要 函数 , 它 根据 从 CPU 的 控制 寄 
存 器 CR2 中 获取 的 页 错误 异常 的 虚拟 地 址 ,以 及 根据 error code 的 错误 类 型 来 查找 此 虚拟 
地 址 是 否 在 某 个 VMA 的 地 址 范围 内 ,并 且 是 否 满足 正确 的 读 写 权 限 ,如果 在 此 范围 内 并 且 
权限 也 正确 ,就 认为 这 是 一 次 合法 访问 ,但 没有 建立 虚实 对 应 关系 ,所 以 需要 分 配 一 个 空闲 
的 内 存 页 ,并 修改 页 表 完 成 虚 地 址 到 物理 地 址 的 映射 ,刷新 TLB, 然 后 调用 iret 中 断 , 返 回 
到 产生 页 错误 异常 的 指令 处 重新 执行 此 指令 。 如 果 该 虚 地 址 不 在 某 VMA 范围 内 ,这 认为 
是 一 次 非法 访问 。 
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4.5 页 面 置换 机 制 的 实现 


4.5.1 页 替换 算法 


操作 系统 为 何 要 进行 页 面 置换 呢 ? 这 是 由 于 操作 系统 给 用 户 态 的 应 用 程序 提供 了 一 个 
虚拟 的 “大 容量 ”内存 空间 ,而 实际 的 物理 内 存 空 间 又 没有 那么 大 。 所 以 操作 系统 就 就 “ 瞒 
着 ”应 用 程序 ,只 把 应 用 程序 中 “常用 ”的 数据 和 代码 放 在 物理 内 存 中 ,而 不 常用 的 数据 和 代 
码 放 在 了 硬盘 这 样 的 存储 介质 上 。 如 果 应 用 程序 访问 的 是 “常用 ”的 数据 和 代码 ,那么 操作 
系统 已 经 放置 在 内 存 中 了 ,不 会 出 现 什么 问题 。 但 当 应 用 程序 访问 它 认 为 应 该 在 内 存 中 的 
的 数据 或 代码 时 ,如 果 这 些 数据 或 代码 不 在 内 存 中 , 则 根据 4.4 节 的 介绍 ,会 产生 页 错误 异 
常 。 这 时 ,操作 系统 必须 能 够 应 对 这 种 页 错误 异常 , 即 尽快 把 应 用 程序 当前 需要 的 数据 或 代 
码 放 到 内 存 中 ,然后 重新 执行 应 用 程序 产生 异常 的 访 存 指令 。 如 果 在 把 硬盘 中 对 应 的 数据 
或 代码 调和 人 内存 前 ,操作 系统 发 现 物 理 内 存 已 经 没有 空闲 空间 了 ,这 时 操作 系统 必须 把 它 认 
为 “不 常用 ”的 页 换 出 到 磁盘 上 ,以 腾 出 内 存 空闲 空间 给 应 用 程序 所 需 的 数据 或 代码 。 

操作 系统 迟早 会 碰 到 没有 内 存 空 闲 空间 而 必须 要 置换 出 内 存 中 某 个 “不 常用 ”的 页 的 情 
况 。 如 何 判 断 内 存 中 哪些 是 “常用 ”的 页 ,哪些 是 “不 常用 ”的 页 ,把 “常用 ”的 页 保持 在 内 存 
中 ,在 物理 内 存 空闲 空间 不 够 的 情况 下 ,把 “不 常用 ”的 页 置换 到 硬盘 上 就 是 页 替换 算法 着 重 
解决 的 问题 。 容 易 理解 ,一 个 好 的 页 替换 算法 会 导致 页 错误 异常 次 数 少 ,这 就 意味 着 访问 硬 
盘 的 次 数 也 少 , 从 而 使 得 应 用 程序 执行 的 效率 高 。 本 次 实验 涉及 的 页 蔡 换 算法 (包括 扩展 练 
习 ) 如 下 。 

(1) 先进 先 出 (First In First Out，FIFO) 页 替换 算法 : 该 算法 总 是 淘汰 最 先进 入 内 存 
的 页 , 即 选择 在 内 存 中 驻 留 时 间 最 久 的 页 予以 淘汰 。 只 需 把 一 个 应 用 程序 在 执行 过 程 中 已 
调 人 内存 的 页 按 先后 次 序 链接 成 一 个 队列 ,队列 头 指向 内 存 中 驻 留 时 间 最 久 的 页 ,队列 尾 指 
向 最 近 被 调 人 内存 的 页 。 这 样 需要 淘汰 页 时 ,从 队列 头 很 容易 查找 到 需要 淘汰 的 页 。FIFO 
算法 只 是 在 应 用 程序 按 线性 顺序 访问 地 址 空间 时 效果 才 好 ,否则 效率 不 高 。 因 为 那些 常 被 
访问 的 页 ,往往 在 内 存 中 也 停留 得 最 久 ,结果 它们 因 变 “ 老 ? 而 不 得 不 被 置换 出 去 。FIFO 算 
法 的 另 一 个 缺点 是 , 它 有 一 种 异常 现象 (Belady 现象 ) , 即 在 增加 放置 页 的 页 帧 的 情况 下 , 反 
而 使 页 错误 异常 次 数 增多 。 

(2) 时 钟 (Clock) 页 替换 算法 ,也 称 最 近 未 使 用 (Not Used Recently, NUR) 页 替换 算 
法 。 虽 然 二 次 机 会 算法 是 一 个 较 合理 的 算法 ,但 它 经 常 需要 在 链表 中 移动 页 面 ,这样 做 既 降 
低 了 效率 ,又 是 不 必要 的 。 一 个 更 好 的 办 法 是 把 各 个 页 面 组 织 成 环形 链表 的 形式 ,类似 于 一 
个 钟 的 表面 。 然 后 把 一 个 指针 指向 最 古老 的 那个 页 面 , 或 者 说 ,最 先进 来 的 那个 页 面 。 时 钟 
算法 和 第 二 次 机 会 算法 的 功能 是 完全 一 样 的 ,只 是 在 具体 实现 上 有 所 不 同 。 时 钟 算法 需要 
在 页 表 项 (PTE) 中 设置 了 一 位 访问 位 来 表示 此 页 表 项 对 应 的 页 当前 是 否 被 访问 过 。 当 该 页 
被 访问 时 ,CPU 中 的 MMU 硬件 将 把 访问 位 置 1。 然 后 将 内 存 中 所 有 的 页 都 通过 指针 链接 
起 来 并 形成 一 个 循环 队列 。 初 始 时 ,设置 一 个 当前 指针 指向 某 页 (比如 最 古老 的 那个 页 面 )。 
操作 系统 需要 淘汰 页 时 ,对 当前 指针 指向 的 页 所 对 应 的 页 表 项 进行 查询 ,如 果 访 问 位 为 0， 
则 淘汰 该 页 ,把 它 换 出 到 硬盘 上 ;如 果 访 问 位 为 1, 这 将 该 页 表 项 的 此 位 置 0, 继 续 访问 下 一 
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个 页 。 该 算法 近似 地 体现 了 LRU 的 思想 ,上 且 易于 实现 ,开销 少 。 但 该 算法 需要 硬件 支持 来 
设置 访问 位 , 且 该 算法 在 本 质 上 与 FIFO 算法 是 类 似 的 ,唯一 不 同 的 是 在 Clock 算法 中 跳 过 
了 访问 位 为 1 的 页 。 

(3) 改进 的 时 钟 (Enhanced Clock) 页 替换 算法 : 在 时 钟 置换 算法 中 ,淘汰 一 个 页 面 时 只 
考虑 了 页 面 是 否 被 访问 过 ,但 在 实际 情况 中 ,还 应 考虑 被 淘汰 的 页 面 是 否 被 修改 过 。 因 为 淘 
汰 修改 过 的 页 面 还 需要 写 回 硬盘 ,使 得 其 置换 代价 大 于 未 修改 过 的 页 面 。 改 进 的 时 钟 置换 
算法 除了 考虑 页 面 的 访问 情况 ,还 需 考 虑 页 面 的 修改 情况 。 即 该 算法 不 但 希望 淘汰 的 页 面 
是 最 近 未 使 用 的 页 ,而 且 还 希望 被 淘汰 的 页 是 在 主 存 驻 留 期 间 其 页 面 内 容 未 被 修改 过 的 。 
这 需要 为 每 一 页 的 对 应 页 表 项 内 容 中 增加 一 位 引用 位 和 一 位 修改 位 。 当 该 页 被 访问 时 ， 
CPU 中 的 MMU 硬件 将 把 访问 位 置 1。 当 该 页 被 “ 写 " 时 ,CPU 中 的 MMU 硬件 将 把 修改 位 
置 1。 这 样 这 两 位 就 存在 四 种 可 能 的 组 合 情 况 : (0,0) 表 示 最 近 未 被 引用 也 未 被 修改 ,首先 
选择 此 页 淘汰 ;(0,1) 最 近 未 被 使 用 ,但 被 修改 ,其 次 选择 ;(1,0) 最 近 使 用 而 未 修改 ,再 次 选 
择 ;(1,1) 最 近 使 用 且 修 改 ,最 后 选择 。 该 算法 与 时 钟 算法 相 比 ,可 进一步 减少 磁盘 的 I/O 
操作 次 数 , 但 为 了 查找 到 一 个 尽 可 能 适合 淘汰 的 页 面 ,可 能 需要 经 过 多 次 扫描 ,这 增加 了 算 
法 本 身 的 执行 开销 。 


4.5.2 页 面 置 换 机 制 


如 果 要 实现 页 面 置换 机 制 ,只 考虑 页 蔡 换 算法 的 设计 与 实现 是 远 远 不 够 的 ,还 需 考虑 其 
他 问题 。 

(1) 哪些 页 可 以 被 换 出 ? 

(2) 一 个 虚拟 的 页 如 何 与 硬盘 上 的 扇 区 建立 对 应 关系 ? 

(3) 何 时 进行 换 入 和 换 出 操作 ? 

(4) 如 何 设计 数据 结构 已 支持 页 替换 算法 ? 

(5) 如 何 完 成 页 的 换 入 和 换 出 操作 ? 

这 些 问题 在 下 面 会 逐一 进行 分 析 。 注 意 ,在 实验 3 中 仅 实现 了 简单 的 页 面 置换 机 制 ,但 
现在 还 没有 涉及 实验 4 和 实验 5 才 实 现 的 内 核 线程 和 用 户 进程 ,所 以 还 无 法 通过 内 核 线程 
机 制 实现 一 个 完整 意义 上 的 虚拟 内 存 页 面 置换 功能 。 

1. 可 以 被 换 出 的 页 

在 操作 系统 的 设计 中 ,一 个 基本 的 原则 是 : 并 非 所 有 的 物理 页 都 可 以 交换 出 去 ,只 有 了 映 
射 到 用 户 空间 且 被 用 户 程序 直接 访问 的 页 面 才能 被 交换 ,而 被 内 核 直 接 使 用 的 内 核 空 间 的 
页 面 不 能 被 换 出 。 这 里 面 的 原因 是 什么 呢 ? 操 作 系 统 是 执行 的 关键 代码 ,需要 保证 运行 的 
高 效 性 和 实时 性 ,如 果 在 操作 系统 执行 过 程 中 ,发 生 了 缺 页 现象 , 则 操作 系统 不 得 不 等 很 长 
时 间 ( 硬 盘 的 访问 速度 比 内 存 的 访问 速度 慢 2~ 3 个 数量 级 ) ,这 将 导致 整个 系统 运行 低 效 ， 
而 且 , 不 难 想象 ,处 理 缺 页 过 程 所 用 到 的 内 核 代 码 或 者 数据 如 果 被 换 出 ,整个 内 核 都 面临 崩 
BEA Ebr 

但 在 实验 3 实现 的 ucore 中 ,我 们 只 是 实现 了 换 入 和 换 出 机 制 , 还 没有 设计 用 户 态 执行 
的 程序 ,所 以 在 实验 3 中 仅仅 通过 执行 check_swap 函数 在 内 核 中 分 配 一 些 页 ,模拟 对 这 些 
页 的 访问 ,然后 通过 do_pgfault 来 调用 swap_map_swappable 函数 来 查询 这 些 页 的 访问 情 
况 并 间接 调用 相关 函数 , 换 出 “不 常用 ”的 页 到 磁盘 上 。 
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2. 虚 存 中 的 页 与 硬盘 上 的 扇 区 之 间 的 映射 关系 

如 果 一 个 页 被 置换 到 了 硬盘 上 ,那么 操作 系统 如 何 能 简捷 地 表示 这 种 情况 呢 ? 在 ucore 
的 设计 上 ,充分 利用 了 页 表 中 的 PTE 来 表示 这 种 情况 : 当 一 个 PTE 用 来 描述 一 般 意义 上 
的 物理 页 时 ,显然 它 应 该 维护 各 种 权限 和 映射 关系 ,以 及 应 该 有 PTE_P 标记 ;但 当 它 用 来 
描述 一 个 被 置换 出 去 的 物理 页 时 , 它 被 用 来 维护 该 物理 页 与 swap 磁盘 上 肩 区 的 映射 关系 ， 
并 且 该 PTE 不 应 该 由 MMU 将 它 解释 成 物理 页 映射 ( 即 没有 PTE_P 标记 ) ,与 此 同时 ,对 
应 的 权限 则 交 由 mm_struct 来 维护 , 当 对 位 于 该 页 的 内 存 地 址 进行 访问 的 时 候 , 必 然 导 致 
page fault ,然后 ucore 能 够 根据 PTE 描述 的 swap 项 将 相应 的 物理 页 重新 建立 起 来 ,并 根 
据 虚 存 所 描述 的 权限 重新 设置 好 PTE 使 得 内 存 访问 能 够 继续 正常 进行 。 

如 果 一 个 页 (4KB/ 页 ) 被 置换 到 了 硬盘 某 8 个 扇 区 (0. 5KB/ 扇 区 ) ,该 PTE 的 最 低 
位 present 位 应 该 为 0 (H) PTE_P 标记 为 空 ,表示 虚实 地 址 映射 关系 不 存在 ) , 接 下 来 
的 7 位 暂时 保留 ,可 以 用 做 各 种 扩展 ;而 原来 表示 页 帧 号 的 高 24 位 地 址 ,恰好 可 以 用 来 表示 
此 页 在 硬盘 上 的 起 始 扇 区 的 位 置 (其 从 第 几 个 扇 区 开始 ) 。 为 了 在 页 表 项 中 区 别 0 和 swap 
分 区 的 映射 ,将 swap 分 区 的 一 个 page 空 出 来 不 用 ,也 就 是 说 一 个 高 24 位 不 为 0, 而 最 低位 
为 0 的 PTE 表示 了 一 个 放 在 硬盘 上 的 页 的 起 始 马 区 号 ( 见 swap. h 中 对 swap_entry_t 的 描述 ， 
如 图 4-4 所 示 ) : 


图 4-4 swap-entry-t 图 


考虑 到 硬盘 的 最 小 访问 单位 是 一 个 扇 区 ,而 一 个 扇 区 的 大 小 为 512(2)B, 所 以 需要 
8 个 连续 扇 区 才能 放置 一 个 4KB 的 页 。 在 ucore 中 ,用 了 第 二 个 IDE 硬盘 来 保存 被 换 出 的 
扇 区 ,根据 实验 3 的 输出 信息 


“ide 1: 262144(sectors) ，'QEMJ HARDDISK' .” 


我 们 可 以 知道 实验 3 能 够 保存 262144/8 王 32768 个 页 , 即 128MB 的 内 存 空间 。swap 
分 区 的 大 小 是 swapfs_init 里 面 根据 磁盘 驱动 的 接口 计算 出 来 的 ,目前 ucore 里 面 要 求 swap 
磁盘 至 少 包含 1000 个 page, 并 且 至 多 能 使 用 2* 个 page. 

3. 执行 换 入 和 换 出 的 时 机 

在 实验 3 中 ,check_mm_struct 变量 这 个 数据 结构 表示 了 目前 ucore 认为 合法 的 所 有 虚 
拟 内 存 空间 集合 ,而 mm 中 的 每 个 vma 表示 了 一 段 地 址 连续 的 合法 虚拟 空间 。 当 ucore 或 
应 用 程序 访问 地 址 所 在 的 页 不 在 内 存 时 ,就 会 产生 page fault 异常 ,引起 调用 do_pgfault ek 
数 , 此 函数 会 判断 产生 访问 异常 的 地 址 属于 check_mm_struct 某 个 vma 表示 的 合法 虚拟 地 
址 空间 , 且 保 存在 硬盘 swap 文件 中 ( 即 对 应 的 PTE 的 高 24 位 不 为 0, 而 最 低位 为 0) , 则 是 
执行 页 换 和 人 的 时 机 ,将 调用 swap_in 函数 完成 页 面 换 入 。 

换 出 页 面 的 时 机 相对 复杂 一 些 , 针 对 不 同 的 策略 有 不 同 的 时 机 。ucore 目前 大 致 有 两 
种 策略 , 即 积极 换 出 策略 和 消极 换 出 策略 。 积 极 换 出 策略 是 指 操作 系统 周期 性 地 (或 在 系统 
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不 忙 的 时 候 ) 主 动 把 某 些 认 为 “不 常用 ”的 页 换 出 到 硬盘 上 ,从 而 确保 系统 中 总 有 一 定数 量 的 
空闲 页 存在 ,这 样 当 需要 空闲 页 时 ,基本 上 能 够 及 时 满足 需求 。 消 极 换 出 策略 是 指 , 只 是 当 
试图 得 到 空闲 页 时 ,发 现 当 前 没有 空闲 的 物理 页 可 供 分 配 ,这 时 才 开 始 查找 “不 常用 ”页 面 ， 
并 把 一 个 或 多 个 这 样 的 页 换 出 到 硬盘 上 。 

在 实验 3 中 的 基本 练习 中 ,支持 上 述 第 二 种 情况 。 对 于 第 一 种 积极 换 出 策略 , 即 每 隔 
1s 执行 一 次 的 实现 积极 的 换 出 策略 ,可 考虑 在 扩展 练习 中 实现 。 对 于 第 二 种 消极 的 换 出 策 
略 , 则 是 在 ucore 调用 alloc_pages 函数 获取 空闲 页 时 ,此 函数 如 果 发 现 无 法 从 物理 内 存 页 
分 配器 (比如 First Fit) 获 得 空闲 页 ,就 会 进一步 调用 swap_out 函数 换 出 某 页 ,实现 一 种 消 
极 的 换 出 策略 。 

4. 页 替换 算法 的 数据 结构 设计 

到 实验 2 为 止 ,我 们 知道 目前 表示 内 存 中 物理 页 使 用 情况 的 变量 是 基于 数据 结构 Page 
的 全 局 变量 pages 数组 ,pages 的 每 一 项 表示 了 计算 机 系统 中 一 个 物理 页 的 使 用 情况 。 为 了 
表示 物理 页 可 被 换 出 或 已 被 换 出 的 情况 ,可 对 Page 数据 结构 进行 扩展 : 


struct Page { 
list entry t pra page link; 
uintptr t pra_vaddr; 


F 


pra_page_link 可 用 来 构造 按 页 的 第 一 次 访问 时 间 进 行 排序 的 一 个 链表 ,这 个 链表 
的 开始 表示 第 一 次 访问 时 间 最 近 的 页 ,链表 结尾 表示 第 一 次 访问 时 间 最 远 的 页 。 当 然 
链表 头 可 以 就 可 设置 为 pra_list_head( 定 义 在 swap_fifo. c P) ,构造 的 时 机 是 在 page 
fault 发 生 后 ,进行 do_pgfault 函数 时 。pra_vaddr 可 以 用 来 记录 此 物理 页 对 应 的 虚拟 页 
起 始 地 址 。 

当 一 个 物理 页 (struct Page) 需 要 被 swap 出 去 的 时 候 , 首 先 需 要 确保 它 已 经 分 配 了 一 个 
位 于 磁盘 上 的 swap page( 由 连续 的 8 个 扇 区 组 成 )。 这 里 为 了 简化 设计 ,在 swap_check K 
数 中 建立 了 每 个 虚拟 页 唯一 对 应 的 swap page, 其 对 应 关系 设 定 为 : 虚拟 页 对 应 的 PTE 的 
RGA swap page 的 扇 区 起 始 位 置 X8。 

为 了 实现 各 种 页 替换 算法 ,下 面 设计 了 一 个 页 替换 算法 的 类 框架 swap_manager: 


struct swap manager 
{ 
const char * name; 
/* Global initialization for the swap manager * / 
int(* init) (void); 
/* Initialize the priv data inside m _ structx / 
int(* init mm) (struct mm struct * mm); 
/* Called when tick interrupt occured / 
int (* tick event) (struct mm struct * mm); 
/* Called when map a swappable page into the m struct * / 
int (* map swappable) (struct m struct * mm, uintptr t addr, struct Page* page, int swap in); 
/* When a page is marked as shared, this routine is called to delete the addr entry from the swap 
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Tanager * / 
int (* set_unswappable) (struct m struct * mn, uintptr t addr); 
/* Try to swap out a page, retum then victim* / 
int (* swap at victim) (struct mm struct * mm, struct Pag**ptr page, int in tick); 
/* check the page relpacement algorithn* / 
int (* check swap) (void); 
F 
这 里 关键 的 两 个 函数 指针 是 map_swappable 和 swap_out_vistim ,前 一 个 函数 用 于 记 
录 页 访问 情况 的 相关 属性 ,后 一 个 函数 用 于 挑选 需要 换 出 的 页 。 显 然 第 二 个 函数 依赖 于 第 
一 个 函数 记录 的 页 访问 情况 。tick_event 函数 指针 也 很 重要 ,结合 定时 产生 的 中 断 ,可 以 实 
现 一 种 积极 的 换 页 策略 。 
5. swap_check 的 检查 实现 
下 面具 体 讲述 一 下 实验 3 中 实现 置换 算法 的 页 面 置换 的 检查 执行 逮 辑 ,便于 大 家 实现 
练习 2。 实 验 3 页 面 置换 的 检查 过 程 在 函数 swap_check(kern/mm/swap. c 中 ) 中 ,其 大 致 
流程 如 下 。 
(1) 调用 mm_create 建立 mm 变量 ,并 调用 vma_create 创建 vma 变量 ,设置 合法 的 访 
问 范 围 为 4~24KB。 
(2) 调用 free_page 等 操作 ,模拟 形成 一 个 只 有 4 个 空闲 physical page; 并 设置 了 从 4 一 
24KB 的 连续 5 个 虚拟 页 的 访问 操作 。 
G) 设置 记录 缺 页 次 数 的 变量 pgfault_num=0. 4447 check_content_set 函数 ,使 得 起 
始 地 址 分 别 对 起 始 地 址 为 0x1000、0x2000、0x3000、0x4000 的 虚拟 页 按时 间 顺 序 先后 写 操 
作 访 问 ,由 于 之 前 没有 建立 页 表 , 所 以 会 产生 page fault 异常 ,如 果 完 成 练习 1, 则 这 些 从 
4 一 20KB 的 4 个 虚拟 页 会 与 ucore 保存 的 4 个 物理 页 帧 建立 映射 关系 。 
(4) 对 虚 页 对 应 的 新 产生 的 页 表 项 进行 合法 性 检查 。 
(5) 进入 测试 页 蔡 换 算法 的 主体 ,执行 函数 check_content_access, 并 进一步 调用 到 _ 
fifo_check_swap 函数 ,如 果 通 过 了 所 有 的 assert。 这 进一步 表示 FIFO 页 替换 算法 基本 正 
(6) 恢复 ucore 环境 。 


4.6 实验 报告 要 求 


从 网 站 上 下 载 lab3. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab3 ,完成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab3- 
handin. tar. gz。 最 后 请 一 定 提 前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab3 的 注释 ,代码 中 所 有 需要 完成 的 地 方 (Challenge 除外 ) 都 有 lab3 和 
“Your Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 "Your Code” 替 换 为 自己 的 学 
号 ,并 且 将 所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 所 有 扩展 实验 的 加 分 总 和 不 超 
过 10 分 。 
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辅助 材料 A: 正确 输出 的 参考 


yyuchen@ yuchen- PAT4:~ /oscourse/2012spring/lab3/lab3- code- 2012$ make gem 


(THU.CST) os is loading... 


Special kemel synbols: 
entry Oxc010002c (phys) 
etext OQxc010962b (phys) 
edata 0xc0122ac8 (phys) 
end Oxc0123c10 (phys) 
Kemel executable memory footprint: 143KB 
memory Management: default pm manager 
e820map: 
memory: 0009£400, [00000000, 0009f3ff], type=1. 
memory: 00000c00，[0009f400，0009ffff]，type= 2. 
memory: 00010000，[000f0000，000fffff]，type= 2. 
memory: 07efa000，[00100000，O7ffcfff]，type= 1. 
memory: 00003000，[07ffa000，07ffffff]，type= 2. 
memory: 00040000, [fffc0000, ffffffff], type=2. 
check_alloc_page() sucoseded! 


PDE (020) c0000000- £8000000 38000000 urw 
|- - PIE (38000) c0000000- £8000000 38000000- rw 
PDE (001) fac00000- fb000000 00400000- rw 
|- - PIE (00020) faf00000- fafe0000 000e0000 urw 
|- - PIE (00001) fafeb000- fafec000 00001000- rw 


heck wa struct() sucoseded! 
page fault at 0x00000100: K/W [no page found]. 
check_pgfault() succeeded! 
check wm() succeeded. 
ide 0: 10000 (sectors), 'CEMJ HARDDISK". 
idel: 262144 (sectors), ，'CQEMU HARDDISK". 
SWAP: manager= fifo swap manager 
FEGIN check swap: count 1, total 31992 

me > sm priv c0123c04 in fifo init m 
setup Page Table for vaddr 0X1000, so alloc a page 
setup Page Table vaddr 0~ 4B OVER! 
setup init env for check_swap begin! 
page fault at 0x00001000: K/W [no page found] . 
page fault at 0x00002000: K/W [no page found]. 
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page fault at 0x00003000: K/W [no page found]. 
page fault at 0x00004000: K/W [no page found]. 
set up init env for check swap over! 
write Virt Page c in fifo check swap 
write Virt Page a in fifo check swap 
write Virt Page d in fifo check swap 
write Virt Page b in fifo check swap 
write Virt Page e in fifo check swap 
page fault at 0x00005000: K/W [no page found]. 
swap out: i 0, store page in vaddr 0x1000 to disk swap entry 2 
write Virt Page b in fifo check swap 
write Virt Page a in fifo heck swap 
page fault at 0x00001000: K/W [no page found] . 
swap out: i 0, store page in vaddr 0x2000 to disk swap entry 3 
swap in: load disk swap entry 2 with swap pag in vadr 0x1000 
write Virt Page b in fifo check swap 
page fault at 0x00002000: K/W [no page found]. 
swap out: i 0, store page in vaddr 0x3000 to disk swap entry 4 
swap in: load disk swap entry 3 with swap pag in vadr 0x2000 
write Virt Page c in fifo check swap 
page fault at 000003000: K/W [no page found] . 
swap out: i 0, store page in vaddr 0x4000 to disk swap entry 5 
swap_in: load disk swap entry 4 with swap pag in vadr 03000 
write Virt Page d in fifo check swap 
page fault at 000004000: K/W [no page found] . 
swap at: i 0, store page in vaddr 0x5000 to disk swap entry 6 
swap_in: load disk swap entry 5 with swap pag in vadr 04000 
check_swap() succeeded! 
++ setup timer interrupts 
100 ticks 
End of Test. 
kernel panic at kem/trap/trap.c:20: 
EOT: kernel seems ok. 
Welcame to the kemel debug monitor!! 
Type 'help' for a list of cammands. 
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第 5 章 实验 4: 内 核 线程 管理 


5.1 实验 目的 


(1) 了 解 内 核 线程 创建 /执行 的 管理 过 程 。 
(2) 了 解 内 核 线程 的 切换 和 基本 调度 过 程 。 


5.2 实验 内 容 


实验 2 和 实验 3 完成 了 物理 和 虚拟 内 存 管理 ,这 给 创建 内 核 线程 (内 核 线 程 是 一 种 特殊 
的 进程 ) 打 下 了 提供 内 存 管 理 的 基础 。 当 一 个 程序 加 载 到 内 存 中 运行 时 ,首先 通过 ucore 的 
内 存 管理 分 配合 适 的 空间 ,然后 就 需要 考虑 如 何 使 用 CPU 来 “并 发 "执行 多 个 程序 。 

本 次 实验 将 首先 接触 的 是 内 核 线程 的 管理 。 内 核 线程 是 一 种 特殊 的 进程 ,内 核 线程 
与 用 户 进程 的 区 别 有 两 个 : 内 核 线程 只 运行 在 内 核 态 而 用 户 进程 会 在 在 用 户 态 和 内 核 态 
交替 运行 ;所 有 内 核 线程 直接 使 用 共同 的 ucore 内 核 内 存 空间 ,不 需 为 每 个 内 核 线程 维护 
单独 的 内 存 空 间 ,而 用 户 进程 需要 维护 各 自 的 用 户 内 存 空间 。 相 关 原 理 介绍 可 看 本 章 附 
录 B。 


5.2.1 练习 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1 一 实验 3。 请 把 已 做 的 实验 1 一 实验 3 的 代码 填 人 本 实验 中 代码 中 
有 labl ,lab2 lab3 的 注释 相应 部 分 。 

练习 1: 分 配 并 初始 化 一 个 进程 控制 块 (需要 编码 ) 。 

alloc_proc KF kern/process/proc. c 中 ) 负责 分 配 并 返回 一 个 新 的 struct proc 
struct 结构 ,用 于 存储 新 建立 的 内 核 线程 的 管理 信息 ucore 需要 对 这 个 结构 进行 最 基本 的 
初始 化 ,本 练习 要 求 完 成 这 个 初始 化 过 程 。 

提示 : 在 alloc_proc 函数 的 实现 中 ,需要 初始 化 的 proc_struct 结构 中 的 成 员 变 量 至 少 
包括 state/pid/runs/kstack/need_resched/parent/mm/context/tf{/cr3/flags/name. 

练习 2: 为 新 创建 的 内 核 线 程 分 配 资源 (需要 编码 ) 。 

创建 一 个 内 核 线程 需要 分 配 和 设置 好 很 多 资源 。kernel_thread 函数 通过 调用 do_fork 
函数 完成 具体 内 核 线程 的 创建 工作 。do_kernel 函数 会 调用 alloc_proc 函数 来 分 配 并 初始 
化 一 个 进程 控制 块 , 但 alloc_proc 只 是 找到 了 一 小 块 内 存 用 以 记录 进程 的 必要 信息 ,并 没有 
实际 分 配 这 些 资 源 。ucore 一 般 通过 do_fork 实际 创建 新 的 内 核 线 程 。do_fork 的 作用 是 ， 
创建 当前 内 核 线 程 的 一 个 副本 ,它们 的 执行 上 下 文 代码 ,数据 都 一 样 ,但 是 存储 位 置 不 同 。 
在 这 个 过 程 中 ,需要 给 新 内 核 线 程 分 配 资源 ,并 且 复 制 原 进程 的 状态 。 需 要 完成 在 kern/ 
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process/proc. c 中 的 do_fork 函数 中 的 处 理 过 程 。 它 的 大 致 执行 步骤 如 下 。 

(1) 调用 alloc_proc, 首 先 获得 一 块 用 户 信息 块 。 

(2) 为 进程 分 配 一 个 内 核 栈 。 

(3) 复制 原 进程 的 内 存 管 理 信息 到 新 进程 (但 内 核 线程 不 必 做 此 事 ) 。 

(4) 复制 原 进程 上 下 文 到 新 进程 。 

(5) 将 新 进程 添加 到 进程 列表 。 

(6) 唤醒 新 进程 。 

(7) 返回 新 进程 号 。 

练习 3; 阅读 代码 ,理解 proc_run 和 它 调用 的 函数 如 何 完 成 进程 切换 的 (无 编码 工作 )。 

完成 代码 编写 后 ,编译 并 运行 代码 : 

make gem 

如 果 可 以 得 到 如 本 章 附 录 A 所 示 的 显示 内 容 ( 仅 供 参考 ,不 是 标准 答案 输出 ), 则 基本 
正确 。 

扩展 练习 Challenge: 实现 支持 任意 大 小 的 内 存 分 配 算法 。 

这 不 是 本 实验 的 内 容 , 其 实 是 上 一 次 实验 内 存 的 扩展 ,但 考虑 到 现在 的 slab 算法 比较 
复杂 ,有 必要 实现 一 个 比较 简单 的 任意 大 小 内 存 分 配 算法 。 可 参考 本 实验 中 的 slab 如 何 调 
用 基于 页 的 内 存 分 配 算法 (注意 : 不 需要 关注 slab 的 具体 实现 ) 来 实现 first-fit/best-fit/ 
worst-fit/buddy 等 支持 任意 大 小 的 内 存 分 配 算法 。 

注意 : 下 面 是 相关 的 Linux 实现 文档 ,可 供 参 考 。 

slob: 

http://en. wikipedia. org/wiki/SLOB 和 http://lwn. net/Articles/157944/ 

slab: 


https://www. ibm. com/ developerworks/cn/linux/l-linux-slab-allocator/ 


5.2.2 项 目 组 成 


目录 结构 图 如 图 5-1 所 示 。 

相对 于 实验 3, 实 验 4 主要 增加 的 文件 有 rb_tree. c.rb_tree. h,kmalloc. c, kmalloc. h, 
hash. c 和 unistd. h 等 文件 。 主 要 修改 的 文件 有 init. c, memlayout. h, pmm. c, pmm. h, 
swap. c 和 vmm. c, 主 要 改动 如 下 。 

(1) kern/process/( 新 增进 程 管理 相关 文件 ) 。 

proc. [ch]: 新 增 , 实 现 进程 .线程 相关 功能 ,包括 创建 进程 /线程 ,初始 化 进程 /线程 ,处 
理 进程 /线程 退出 等 功能 。 

entry. S: 新 增 , 内 核 线 程 人 口 函 数 kernel_thread_entry 的 实现 。 

switch. S: 新 增 , 上 下 文 切换 ,利用 堆栈 保存 .恢复 进程 上 下 文 。 

(2) kern/init/, 

init. c: 修改 ,完成 进程 系统 初始 化 ,并 在 内 核 初 始 化 后 切入 idle 进程 。 

(3) kern/mm/ (基本 上 与 本 次 实验 没有 太 直 接 的 联系 ,了 解 kmalloc 和 kfree 如 何 使 用 
即 可 )。 
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| 一 boot 

j kern 

|— debug 

| driver 

f 

m init 

|___ init.c 

| libs 

|— rb_tree.c 
+— rb_tree.h 
上- 一 mm 

| 一 kmalloc.c 
上 一 kmalloc.h 
上 一 memlayout.h 


— process 
H entry.S 
— proc.c 
— proc.h 
-一 Switch.S 
| 一 schedule 
H sched.c 
-一 sched.h 
| 一 sync 

-一 Sync.h 
L— trap 

|— trapentry.S 


— libs 

|— hash.c 
|— stdlib.h 
— unistd.h 


|— Makefile 
— tools 


kmalloc. [ch]; 新 增 , 定 义 和 实 现 了 新 的 kmalloc/kfree 函数 。 具 体 实 现 是 基于 slab 分 
配 的 简化 算法 〈 只 要 求 会 调用 这 两 个 函数 即 可 ) 。 

memlayout. h; 增加 slab 物理 内 存 分 配 相关 的 定义 与 宏 ( 可 不 用 理会 )。 

pmm. [ch]; 修改 ,在 pmm. c 中 添加 了 调用 kmalloc_init 函数 ,取消 了 旧 的 kmalloc/ 
kfree 的 实现 ;在 pmm. h 中 取消 了 旧 的 kmalloc/kfree 的 定义 。 

swap. c: 修改 ,取消 了 用 于 check 的 Line 185 的 执行 。 

vmm.c: 修改 ,调用 新 的 kmalloc/kfree。 

(4) kern/trap/. 

trapentry. S: 增加 了 汇编 写 的 函数 forkrets, 用 于 do_fork 调用 的 返回 处 理 。 

(5) kern/schedule/ 。 

sched. [ch]: 新 增 ,实现 FIFO 策略 的 进程 调度 。 

(6) kern/libs. 

rb_tree. [ch]: 新 增 , 实 现 红 黑 树 ,被 slab 分 配 的 简化 算法 使 用 (可 不 用 理会 ) 。 

编译 并 运行 代码 的 命令 如 下 : 
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make 
make qem 


则 可 以 得 到 如 本 章 附录 A 所 示 的 显示 内 容 ( 仅 供 参考 ,不 是 标准 答案 输出 ) 。 


5.3 内核 线 程 管理 


5.3.1 实验 执行 流程 概述 


lab2 和 lab3 完成 了 对 内 存 的 虚拟 化 ,但 整个 控制 流 还 是 一 条 线 串 行 执 行 。lab4 将 在 此 
基础 上 进行 CPU 的 虚拟 化 , 即 让 ucore 实现 分 时 共享 CPU ,实现 多 条 控制 流 能 够 并 发 执 
行 。 在 某 种 程度 上 ,可 以 把 控制 流 看 做 一 个 内 核 线程 。 本 次 实验 将 首先 接触 的 是 内 核 线程 
的 管理 。 内 核 线程 是 一 种 特殊 的 进程 ,内 核 线 程 与 用 户 进程 的 区 别 有 两 个 : 内 核 线程 只 运 
行 在 内 核 态 而 用 户 进程 会 在 用 户 态 和 内 核 态 交替 运行 ;所 有 内 核 线程 直接 使 用 共同 的 ucore 
内 核 内 存 空间 ,不 需 为 每 个 内 核 线程 维护 单独 的 内 存 空间 ,而 用 户 进程 需要 维护 各 自 的 用 户 
内 存 空 间 。 从 内 存 空间 占用 情况 这 个 角度 上 看 ,可 以 把 线程 看 做 一 种 共享 内 存 空间 的 轻 量 
级 进程 。 

为 了 实现 内 核 线程 ,需要 设计 管理 线程 的 数据 结构 , 即 进程 控制 块 (在 这 里 也 可 叫做 线 
程控 制 块 )。 如 果 要 让 内 核 线程 运行 ,首先 要 创建 内 核 线程 对 应 的 进程 控制 块 ,还 需 把 这 些 
进程 控制 块 通过 链表 连 在 一 起 ,便于 随时 进行 插入 、 删 除 和 查找 操作 等 进程 管理 事务 。 这 个 
链表 就 是 进程 控制 块 链表 。 然 后 再 通过 调度 器 (Scheduler) 来 让 不 同 的 内 核 线程 在 不 同 的 
时 间 段 占用 CPU 执行 ,实现 对 CPU 的 分 时 共享 。 那 么 lab4 中 是 如 何 一 步 一 步 实现 这 个 过 
程 的 呢 ? 

还 是 从 lab4/kern/init/init. c 中 的 kern_init KALA FAT. TE kern_init 函数 中 , 当 完 
成 虚拟 内 存 的 初始 化 工作 后 ,就 调用 了 proc_init 函数 ,这 个 函数 完成 了 idleproc 内 核 线程 
和 initproc 内 核 线程 的 创建 或 复制 工作 ,这 也 是 本 次 实验 要 完成 的 练习 。idleproc 内 核 线程 
的 工作 就 是 不 停 地 查询 ,看 是 否 有 其 他 内 核 线程 可 以 执行 了 ,如 果 有 ,马上 让 调度 器 选择 那 
个 内 核 线 程 执行 (请 参考 cpu_idle 函数 的 实现 )。 所 以 idleproc 内 核 线 程 是 在 ucore 操作 系 
统 没 有 其 他 内 核 线 程 可 执行 的 情况 下 才 会 被 调用 。 接 着 就 是 调用 kernel_thread 函数 来 创 
建 initproc 内 核 线 程 。initproc 内 核 线程 的 工作 就 是 显示 * Hello World”, 表 明 自 己 存 在 且 
能 正常 工作 了 。 

调度 器 会 在 特定 的 调度 点 上 执行 调度 ,完成 进程 切换 。 在 lab4 中 ,这 个 调度 点 只 有 
一 处 , 即 在 cpu_idle 函数 中 ,此 函数 如 果 发 现 当 前 进程 (也 就 是 idleproc) 的 need_resched 置 
为 1( 在 初始 化 idleproc 的 进程 控制 块 时 就 置 为 1 了 ), 则 调用 schedule 函数 ,完成 进程 调 
度 和 进程 切换 。 进 程 调度 的 过 程 其 实 比 较 简 单 , 就 是 在 进程 控制 块 链表 中 查找 到 一 个 
“合适 ”的 内 核 线程 ,所 谓 “ 合 适 ” 就 是 指 内 核 线 程 处 于 PROC_RUNNABLE 状态 。 在 接 下 
来 的 switch_to 函数 (在 后 续 有 详细 分 析 , 有 一 定 难度 , 需 深入 了 解 一 下 ) 完 成 具体 的 进程 
切换 过 程 。 一 旦 切换 成 功 ,那么 initproc 内 核 线 程 就 可 以 通过 显示 字符 串 来 表明 本 次 实 
验 成 功 。 

接 下 来 将 主要 介绍 进程 创建 所 需 的 重要 数据 结构 一 一 进程 控制 块 proc_struct, 以 及 
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并 执行 内 核 线 程 idleproc 和 initproc 的 两 种 不 同方 式 , 特 别 是 创建 initproc 的 方 


式 将 被 延续 到 实验 5 中 ,扩展 为 创建 用 户 进程 的 主要 方式 。 另 外 ,还 初步 涉及 了 进程 调度 


(实验 6 涉及 六 


F 会 扩展 ) 和 进程 切换 内 容 。 


5.3.2 设计 关键 数据 结构 一 一 进程 控制 块 


在 实验 4 中 ,进程 管理 信息 用 struct proc_struct 表示 ,在 kern/process/proc. h 中 定义 


如 下 : 


struct proc struct { 


enm proc state state; //Process state 
int pid; //Process ID 
int nns; //the cunning times of Proces 


uintptr t kstack; 
volatile bool need_resched; 


struct proc_struct * parent; 


struct m struct * mn; 
struct context context; 


//Process kemel stack 

//need to be rescheduled to release CPU? 
//the parent process 
//Process's memory management field 
//Switch here to nn process 


struct trapframe* tf; //Trap frame for current interrupt 

uintptr_t cr3; //the base address of Page Directroy Table (PDT) 
uint32_t flags; //Process flag 

char nae [PROC NAME, IEN+ 1]; //Process name 

list_entry t list_link; //Process Link list 

list entry t hash link; //Process hash list 


i 

下 面 重点 解释 一 下 几 个 比较 重要 的 成 员 变量 。 

(1) mm: 内 存 管理 的 信息 ,包括 内 存 映 射 列 表 、 页 表 指 针 等 。mm 成 员 变 量 在 lab3 中 
用 于 虚 存 管理 。 但 在 实际 OS 中 ,内 核 线 程 常 驻 内 存 , 不 需要 考虑 swap page 问题 ,在 lab5 
中 涉及 用 户 进程 , 才 考 虑 进程 用 户 内 存 空间 的 swap page 问题 ,mm 才 会 发 挥 作用 。 所 以 在 
lab4 中 mm 对 于 内 核 线程 就 没有 用 ,这 样 内 核 线程 的 proc_struct 的 成 员 变 量 * mm=0 是 
合理 的 。mm 里 有 个 很 重要 的 项 pgdir, 记 录 的 是 该 进程 使 用 的 一 级 页 表 的 物理 地 址 。 由 于 
x mm 二 NULL, 所 以 在 proc_struct 数据 结构 中 需要 有 一 个 代替 pgdir 项 来 记录 页 表 起 始 地 
址 ,这 就 是 proc_struct 数据 结构 中 的 cr3 成 员 变量 。 

(2) state: 进程 所 处 的 状态 。 

(3) parent : 用 户 进程 的 父 进 程 (创建 它 的 进程 )。 在 所 有 进程 中 ,只 有 一 个 进程 没有 
父 进 程 , 就 是 内 核 创 建 的 第 一 个 内 核 线程 idleproc。 内 核 根 据 这 个 父子 关系 建立 一 个 树 形 
结构 ,用 于 维护 一 些 特殊 的 操作 ,例如 ,确定 某 个 进程 是 否 可 以 对 另外 一 个 进程 进行 某 种 操 
作 等 。 

(4) context: 进程 的 上 下 文 , 用 于 进程 切换 (参见 switch. S) 。 在 ucore 中 ,所 有 的 进程 
在 内 核 中 也 是 相对 独立 的 (例如 ,独立 的 内 核 堆栈 以 及 上 下 文 等 )。 使 用 context 保存 寄存 
器 的 目的 就 在 于 在 内 核 态 中 能 够 进行 上 下 文 之 间 的 切换 。 实 际 利用 context 进行 上 下 文 切 
换 的 函数 是 在 kern/process/switch. S 中 定义 的 switch_to。 

« 115-9 


(5) tf: 中 断 帧 的 指针 ,总 是 指向 内 核 栈 的 某 个 位 置 。 当 进程 从 用 户 空间 跳 转 到 内 核 空 
间 时 ,中断 帧 记录 了 进程 在 被 中 断 前 的 状态 。 当 内 核 需 要 跳 回 用 户 空间 时 ,需要 调整 中 断 帧 
以 恢复 让 进程 继续 执行 的 各 寄存 器 值 。 除 此 之 外 ,ucore 内 核 允许 租 套 中 断 。 因 此 为 了 保 
TERRES Pt ACE MY tf 总 是 能 够 指向 当前 的 trapframe, ucore 在 内 核 栈 上 维护 了 tf 的 链 ,可 
以 参考 trap. c: :trap 函数 做 进一步 的 了 解 。 

(6) cr3: cr3 保存 页 表 的 物理 地 址 ,目的 是 进程 切换 的 时 候 方便 直接 使 用 lcr3 实现 页 
表 切 换 , 避 免 每 次 都 根据 mm 来 计算 cr3。mm 数据 结构 是 用 来 实现 用 户 空间 的 虚 存 管理 
的 ,但 是 内 核 线程 没有 用 户 空间 , 它 执 行 的 只 是 内 核 中 的 一 小 段 代码 (通常 是 一 小 段 函 数 )， 
所 以 它 没有 mm 结构 ,也 就 是 NULL。 当 某 个 进程 是 一 个 普通 用 户 态 进程 的 时 候 ,PCB 中 
的 cr3 就 是 mm 中 页 表 (pgdir) 的 物理 地 址 ;而 当 它 是 内 核 线 程 的 时 候 ,cr3 等 于 boot_cr3。 
boot_cr3 指向 了 ucore 启动 时 建 好 的 栈 内 核 虚拟 空间 的 页 目录 表 首 地 址 。 

(7) kstack: 每 个 线程 都 有 一 个 内 核 栈 ,并 且 位 于 内 核 地 址 空间 的 不 同位 置 。 对 于 内 核 
线程 ,该 栈 就 是 运行 时 的 程序 使 用 的 栈 ; 而 对 于 普通 进程 ,该 栈 是 发 生 特权 级 改变 的 时 候 使 
保存 被 打 断 的 硬件 信息 用 的 栈 。ucore 在 创建 进程 时 分 配 了 2 个 连续 的 物理 页 (参见 
memlayout. h 中 KSTACKSIZE 的 定义 ) 作 为 内 核 栈 的 空间 。 这 个 栈 很 小 ,所 以 内 核 中 的 代 
码 应 该 尽 可 能 地 紧凑 ,并 且 避 免 在 栈 上 分 配 大 的 数据 结构 ,以 免 栈 浇 出 ,导致 系统 崩溃 。 
kstack 记录 了 分 配给 该 进程 /线程 的 内 核 栈 的 位 置 。 主 要 作用 有 以 下 几 点 。 首 先 , 当 内 核 
准备 从 一 个 进程 切换 到 另 一 个 进程 的 时 候 , 需 要 根据 kstack 的 值 正 确 地 设置 好 tss( 可 以 回 
顾 一 下 在 实验 1 中 讲述 的 tss 在 中 断 处 理 过 程 中 的 作用 ) ,以 便 在 进程 切换 以 后 再 发 生 中 断 
时 能 够 使 用 正确 的 栈 。 其 次 ,内 核 栈 位 于 内 核 地 址 空间 ,并 且 是 不 共享 的 (每 个 线程 都 拥有 
自己 的 内 核 栈 ) ,因此 不 受 mm 的 管理 , 当 进程 退出 的 时 候 , 内 核能 够 根据 kstack 的 值 快 速 
定位 栈 的 位 置 并 进行 回收 。ucore 的 这 种 内 核 栈 的 设计 借鉴 的 是 Linux 的 方法 (但 由 于 内 
存 管理 实现 的 差异 , 它 实现 的 远 不 如 Linux 的 灵活 ), 它 使 得 每 个 线程 的 内 核 栈 在 不 同 的 位 
置 , 这 样 从 某 种 程度 上 方便 调试 ,但 同时 也 使 得 内 核对 栈 溢出 变 得 十 分 不 敏感 ,因为 一 旦 发 
生 溢出 , 它 极 可 能 污染 内 核 中 其 他 的 数据 使 得 内 核 崩溃 。 如 果 能 够 通过 页 表 , 将 所 有 进程 的 
内 核 栈 映射 到 固定 的 地 址 上 ,能 够 避免 这 种 问题 ,但 又 会 使 得 进程 切换 过 程 中 对 栈 的 修改 变 
得 相当 烦琐 。 感 兴趣 的 同学 可 以 参考 Linux kernel 的 代码 对 此 进行 尝试 。 

为 了 管理 系统 中 所 有 的 进程 控制 块 ,ucore 维护 了 如 下 全 局 变量 (位 于 kern/process/ 
proc. c) 。 

© static struct proc * current; 当前 占用 CPU 且 处 于 “运行 ”状态 进程 控制 块 指针 。 通 
常 这 个 变量 是 只 读 的 ,只 有 在 进程 切换 的 时 候 才 进行 修改 ,并 且 整 个 切换 和 修改 过 程 需要 保 
证 操作 的 原子 性 ,目前 至 少 需要 屏蔽 中 断 。 可 以 参考 switch_to 的 实现 。 

@ static struct proc * initproc: 本 实验 中 ,指向 一 个 内 核 线 程 。 本 实验 以 后 ,此 指针 将 
指向 第 一 个 用 户 态 进 程 。 

@ static list_entry_t hash_list[ HASH_LIST_SIZE]: 所 有 进程 控制 块 的 散 列 表 ,proc 
struct 中 的 成 员 变 量 hash_link 将 基于 pid 链接 入 这 个 散 列 表 中 。 

@ list_entry_t proc_list; 所 有 进程 控制 块 的 双向 线性 列表 ,proc_struct 中 的 成 员 变量 
list_link 将 链接 人 这 个 链表 中 。 
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5.3.3 创建 并 执行 内 核 线程 


建立 进程 控制 块 (proc. c 中 的 alloc_proc 函数 ) 后 ,现在 就 可 以 通过 进程 控制 块 来 创建 
具体 的 进程 了 。 首 先 ,考虑 最 简单 的 内 核 线程 , 它 通 常 只 是 内 核 中 的 一 小 段 代码 或 者 函数 ， 
没有 用 户 空间 。 由 于 在 操作 系统 启动 后 ,已 经 对 整个 核心 内 存 空间 进行 了 管理 ,通过 设置 页 
表 建 立 了 核心 虚拟 空间 ( 即 boot_er3 指向 的 二 级 页 表 描 述 的 空间 )。 所 以 内 核 中 的 所 有 线 
程 都 不 需要 再 建立 各 自 的 页 表 , 只 需 共享 这 个 核心 虚拟 空间 就 可 以 访问 整个 物理 内 存 。 

1. 创建 第 0 个 内 核 线 程 idleproc 

init. c; :kern_init 函数 调用 了 proc. c: :proc_init 函数 。proc_init 函数 启动 了 创建 内 核 
线程 的 步 又。 首先 当前 的 执行 上 下 文 (从 kern_init 启动 至 今 ) 就 可 以 看 成 ucore 内 核 ( 也 可 
看 做 内 核 进程 ) 中 的 一 个 内 核 线程 的 上 下 文 。 为 此 ， ucore 通过 给 当前 执行 的 上 下 文 分 配 一 
个 进程 控制 块 以 及 对 它 进行 相应 初始 化 ,将 其 打造 成 第 0 个 内 核 线程 idleproc。 具 体 步 
又 如 下 。 

首先 调用 alloc_proc 函数 来 通过 kmalloc 函数 获得 proc_struct 结构 的 一 块 内 存 
proc, 这 就 是 第 0 个 进程 控制 块 了 ,并 把 proc 进行 初步 初始 化 ( 即 把 proc_struct 中 的 各 个 成 
员 变 量 清 零 )。 但 有 些 成 员 变 量 设置 了 特殊 的 值 : 


练习 1 // 设 置 进程 为 “初始 ”" 态 
练习 1 // 进 程 的 pia 还 没 设置 好 
练习 1 // 进 程 在 内 核 中 使 用 的 内 核 页 表 的 起 始 地 址 


上 述 三 条 语句 中 ,第 一 条 设置 了 进程 的 状态 为 “初始 ” 态 , 这 表示 进程 已 经 “出 生 ” 了 ,下 
在 获取 资源 苗 壮 成 长 中 ;第 二 条 语句 设置 了 进程 的 pid 为 一 1, 这 表示 进程 的 “身份 证 号 ”还 
没有 办 好 ;第 三 条 语句 表明 由 于 该 内 核 线程 在 内 核 中 运行 , 故 采用 为 ucore 内 核 已 经 建立 的 
页 表 , 即 设置 为 在 ucore 内 核 页 表 的 起 始 地 址 boot_cr3。 后 续 实 验 中 可 进一步 看 出 所 有 进 
程 的 内 核 虚 地 址 空间 (也 包括 物理 地 址 空间 ) 是 相同 的 。 既 然 内 核 线程 共用 一 个 映射 内 核 空 
间 的 页 表 , 这 表示 所 有 这 些 内 核 空间 对 所 有 内 核 线程 都 是 “可 见 ” 的 ,所 以 更 精确 地 说 ,这 些 
内 核 线程 都 应 该 是 从 属于 同一 个 唯一 的 内 核 进程 ucore 内 核 。 

接 下 来 ,proc_init ph BX idleproc 内 核 线程 进行 进一步 初始 化 : 


idleproc- >pid= 0; 

idleproc- > state= PROC_RUNNABLE; 

idleproc- > kstack= (uintptr_t)bootstack; 

idleproc- > need_resched= 1; 

set_proc_name (idleproc, "idle"); 

需要 注意 前 4 条 语句 。 第 一 条 语句 给 了 idleproc 合法 的 身份 证 号 一 一 0, 这 名 正言 顺 地 
表明 了 idleproc 是 第 0 个 内 核 线 程 。 通 常 可 以 通过 pid 的 赋值 来 表示 线程 的 创建 和 身份 确 
定 。0 是 第 一 个 的 表示 方法 是 计算 机 领域 所 特有 的 ,比如 C 语言 定义 的 第 一 个 数组 元 素 的 
小 标 也 是 0。 第 二 条 语句 改变 了 idleproc 的 状态 ,使 得 它 从 “出 生 ” 转 到 了 “准备 工作 ”, 就 差 
ucore 调度 它 执行 了 。 第 三 条 语句 设置 了 idleproc 所 使 用 的 内 核 栈 的 起 始 地 址 。 需 要 注意 
以 后 的 其 他 线程 的 内 核 栈 都 需要 通过 分 配 获得 ,因为 ucore 启动 时 设置 的 内 核 栈 直接 分 配 
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给 idleproc 使 用 了 。 第 四 条 很 重要 ,因为 ucore 希望 当前 CPU 应 该 做 更 有 用 的 工作 ,而 不 
是 运行 idleproc 这 个 “无 所 事 事 ” 的 内 核 线程 ,所 以 把 idleproc 一 盖 need_resched 设置 为 1, 结 
@ idleproc 的 执行 主体 一 一 cpu_idle 函数 的 实现 ,可 以 清楚 地 看 出 如 果 当 前 idleproc 在 执 
行 , 则 只 要 此 标志 为 1, 马上 就 调用 schedule 也 数 要求 调 度 器 切换 其 他 进程 执行 。 

2. 创建 第 1 个 内 核 线程 initproc 

第 0 个 内 核 线程 的 主要 工作 是 完成 内 核 中 各 个 子 系统 的 初始 化 ,然后 就 通过 执行 cpu_ 
idle 函数 开始 过 退休 生活 了 。 所 以 ucore 接 下 来 还 需 创 建 其 他 进程 来 完成 各 种 工作 ,但 
idleproc 内 核子 线程 自己 不 想 做 ,于 是 就 通过 调用 kernel_thread 函数 创建 了 一 个 内 核 线程 
init_main。 在 实验 4 中 ,这 个 子 内 核 线程 的 工作 就 是 输出 一 些 字 符 串 ,然后 就 返回 了 (参见 
init_main 函数 ) 。 但 在 后 续 的 实验 中 ,init_main 的 工作 就 是 创建 特定 的 其 他 内 核 线程 或 用 
户 进程 (实验 5 涉及 )。 下 面 我 们 来 分 析 一 下 创建 内 核 线程 的 函数 kernel_thread; 


kemel thread(int (* fn) (void* ), void* arg, uint32 t clone flags) { 
struct trapfrare tf; 
memset (&t£, 0, sizeof (struct trapframe)) ; 
tf.tf cs= KERNEL CS; 
tf.tf dtf struct.tf es=tf_struct.tf_ss=KERNEL DS; 
tf.tf regs.reg ebx= (uint32_t) fn; 
tf.tf regs.reg edxs= (uint32_t)arg; 
tf.tf eip= (uint32 t)kemel thread entry; 
retum œ fork(clone flags | CIOE W, 0, &tf); 
} 


注意 : kernel_thread 函数 采用 了 局 部 变量 t Ri EIRA AH R h e h PT, ,并 把 
中 断 帧 的 指针 传递 给 do_fork 函数 ,而 do_fork 函数 会 调用 copy_thread 函数 来 在 新 创建 的 
进程 内 核 栈 上 专门 给 进程 的 中 断 帧 分 配 一 块 空间 。 

给 中 断 帧 分 配 完 空 间 后 ,就 需要 构造 新 进程 的 中 断 帧 ,具体 过 程 是 : 首先 给 tf 进行 清 零 
初始 化 ,并 设置 中 断 帧 的 代码 段 (tf. tf_cs) 和 数据 段 (tf. tf_ds/tf_es/t_ss) 为 内 核 空 间 的 段 
(KERNEL_CS/ KERNEL_DS) ,这 实际 上 也 说 明了 initproc 内 核 线程 在 内 核 空间 中 执行 。 而 
initproc 内 核 线程 从 哪里 开始 执行 呢 ? tf. tf_eip 指出 的 是 kernel _thread_entry( 位 于 kern/ 
process/ entry. S 中 ) ,kernel_thread_entry 是 entry. S 中 实现 的 汇编 函数 , 它 做 的 事情 很 简单 : 


kemel thread entry: # void kemel thread (void) 
pushl % eck # push arg 
call* %ebx #call fn 
pushl % eax # save the retum value of fn(arg) 
call do exit # call do exit to tenminate current thread 


从 以 上 代码 可 以 看 出 ,kernel_thread_entry 函数 主要 为 内 核 线程 的 主体 fn 函数 做 了 一 
个 准备 开始 和 结束 运行 的 “ 壳 ”, 并 把 函数 fn 的 参数 arg( 保 存在 edx 寄存 器 中 ) 压 栈 ,然后 调 
用 fn 函数 ,把 函数 返回 值 eax 寄存 器 内 容 压 栈 ,调用 do_exit 函数 退出 线程 执行 。 
do_fork 是 创建 线程 的 主要 函数 。kernel_thread 函数 通过 调用 do_fork 函数 最 终 完成 
内 核 线程 的 创建 工作 。 下 面 我 们 来 分 析 一 下 do_fork 函数 的 实现 (练习 2)。do_fork 函数 主 
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要 做 了 以 下 6 件 事 情 。 
(1) 分 配 并 初始 化 进程 控制 块 (alloc_proc 函数 )。 
(2) 分 配 并 初始 化 内 核 栈 (setup_stack 函数 ) 。 
(3) 根据 clone_flag 标志 复制 或 共享 进程 内 存 管理 结构 (copy_mm 函数 ) 。 
(4) 设置 进程 在 内 核 ( 将 来 也 包括 用 户 态 ) 正 常 运行 和 调度 所 需 的 中 断 帧 ,以 及 执行 上 
下 文 (copy_thread 函数 ) 。 
(5) 把 设置 好 的 进程 控制 块 放 入 hash_list 和 proc_list 两 个 全 局 进程 链表 中 。 
(6) 自 此 ,进程 已 经 准备 好 执行 了 ,把 进程 状态 设置 为 “就 绪 ? 态 。 
(7) 设置 返回 码 为 子 进程 的 id 号 。 
这 里 需要 注意 的 是 ,如 果 上 述 前 3 步 执行 没有 成 功 , 则 需要 做 对 应 的 出 错 处 理 , 把 相关 
已 经 占有 的 内 存 释 放 掉 。copy_mm 函数 目前 只 是 把 current—>mm 设置 为 NULL, 这 是 
由 于 目前 在 实验 4 中 只 能 创建 内 核 线程 ,proc 一 之 mm 描述 的 是 进程 用 户 态 空间 的 情况 ,所 
以 目前 mm 还 用 不 上 。copy_thread 函数 做 的 事情 比较 多 ,代码 如 下 : 
static void 
Copy_thread (struct proc_struct * proc, uintptr t esp, struct trapframe* tf) { 
// 在 内 核 堆栈 的 顶部 设置 中 断 帧 大 小 的 一 块 栈 空间 
proc- >tf= (struct trapframe* ) (proc- > kstack+ KSTACKSIZE) - 1; 


* (proc- >tf)= * tf; // 复 制 在 kemel thread 函数 建立 的 临时 中 断 帧 的 初始 值 
proc- >tf_ >tf regs.reg eax=0; // 设 置 子 进程 Be FRAT FE do_fork 后 的 返回 值 
proc- > tf- >tf esp= esp; // 设 置 中 断 帧 中 的 栈 指 针 esp 

proc- >tf- >tf eflags |=FL_IF; // 使 能 中 断 


proc- > context .eip= (uintptr_t) forkret; 
proc- > context .esp= (uintptr_t) (proc- > tf); 
} 


此 函数 首先 在 内 核 堆栈 的 顶部 设置 中 断 帧 大 小 的 一 块 栈 空 间 , 并 在 此 空间 中 复制 在 
kernel_thread 函数 建立 的 临时 中 断 帧 的 初始 值 ,并 进一步 设置 中 断 帧 中 的 栈 指针 esp 和 标 
志 寄 存 器 eflags ,特别 是 eflags 设置 了 FL_IF 标志 ,这 表示 此 内 核 线程 在 执行 过 程 中 ,能 响 
应 中 断 , 打 断 当前 的 执行 。 执 行 到 这 步 后 ,此 进程 的 中 断 帧 就 建 好 了 ,对 于 initproc 而 言 , 它 
的 中 断 帧 如 下 : 


// 所 在 地 址 位 置 
initproc- > tf (proc- > kstack+ KSTACKSIZE)- sizeof (struct trapframe) ; 
// 具 体内 容 
initproc- > tf.tf cs= KERNEL CS; 
initproc- > tf.tf ds= initproc- >tf.tf es- initproc-> tf.tf_ss= KERNEL DS; 
initproc- > tf.tf regs.reg ebe= (uint32_t)init main; 
initproc- > tf.t£_regs.reg_ede= (uint32_t) ADDRESS of "Hello?world!!"; 
initproc- > tf.tf eip= (uint32_t)kemel thread entry; 
initproc- >tf.tf regs.reg eas 0; 
initproc- > tf.t£_esp= esp; 
initproc- > tf.tf eflags |=FL IF; 
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设置 好 中 断 帧 后 ,最 后 就 是 设置 initproc 的 进程 上 下 文 (process context, 也 称 执行 现 
场 ) 了 。 只 有 设置 好 执行 现场 后 ,一 旦 ucore 调度 器 选择 了 initproc 执行 ,就 需要 根据 
initproc 一 六 context 中 保存 的 执行 现场 来 恢复 initproc 的 执行 。 这 里 设置 了 initproc 的 执 
行 现场 中 主要 的 两 个 信息 : 上 次 停止 执行 时 的 下 一 条 指令 地 址 context. eip 和 上 次 停止 执 
行 时 的 堆栈 地 址 context. esp。 其 实 initproc 还 没有 执行 过 ,所 以 这 其 实 就 是 initproc 实际 
执行 的 第 一 条 指令 地 址 和 堆栈 指针 。 可 以 看 出 ,由 于 initproc 的 中 断 帧 占用 了 实际 给 
initproc 分 配 的 栈 空间 的 顶部 ,所 以 initproc 就 只 能 把 栈 顶 指针 context. esp 设置 在 initproc 
的 中 断 帧 的 起 始 位 置 。 根 据 context. eip 的 赋值 ,可 以 知道 initproc 实际 开始 执行 的 地 方 在 
forkret 函数 (主要 完成 do_fork 函数 返回 的 处 理工 作 ) 处 。 至 此 ,initproc 内 核 线程 已 经 做 
好 准备 执行 了 。 

3. 调度 并 执行 内 核 线程 initproc 

在 ucore 执行 完 proc_init 函数 后 ,就 创建 好 了 两 个 内 核 线程 : idleproc 和 initproc, 这 时 
ucore 当前 的 执行 现场 就 是 idleproc, 等 到 执行 到 init 函数 的 最 后 一 个 函数 cpu_idle 之 前 ， 
ucore 的 所 有 初始 化 工作 就 结束 了 ,idleproc 将 通过 执行 cpu_idle 函数 让 出 CPU ,给 其 他 内 
核 线程 执行 ,具体 过 程 如 下 : 

void 

qpu_idle (void) { 

while (1) { 
if (current- > need resched) { 
schedule () 7 i. 


首先 ,判断 当前 内 核 线 程 idleproc 的 need_resched 是 否 不 为 0, 回顾 前 面 “ 创 建 第 一 个 
内 核 线程 idleproc" 中 的 描述 ,proc_init 函数 在 初始 化 idleproc 中 ,就 把 idleproc 一 二 need_ 
resched 置 为 1 了 ,所 以 会 马上 调用 schedule 函数 找 其 他 处 于 “就 绪 ”" 态 的 进程 执行 。 

ucore 在 实验 4 中 只 实现 了 一 个 最 简单 的 FIFO 调度 器 ,其 核心 就 是 schedule 函数 。 它 
的 执行 逻辑 如 下 。 

(1) 设置 当前 内 核 线程 current— >need_resched 为 0。 

(2) 在 proc_list 队列 中 查找 下 一 个 处 于 "就绪" 态 的 线程 或 进程 next。 

(3) 找到 这 样 的 进程 后 ,就 调用 proc_run 函数 ,保存 当前 进程 current 的 执行 现场 ( 进 
程 上 下 文 ) ,恢复 新 进程 的 执行 现场 ,完成 进程 切换 。 

至 此 ,新 的 进程 next 就 开始 执行 了 。 由 于 在 proc10 中 只 有 两 个 内 核 线程 , 且 idleproc 
要 让 出 CPU 给 initproc 执行 ,我 们 可 以 看 到 schedule 函数 通过 查找 proc_list 进程 队列 ,只 
能 找到 一 个 处 于 “就 绪 ? 态 的 initproc 内 核 线 程 ,并 通过 proc_run 和 进一步 的 switch_to PA 
数 完成 两 个 执行 现场 的 切换 ,具体 流程 如 下 。 

(1) ik current 指向 next 内 核 线 程 initproc。 

(2) 设置 任务 状态 段 ts 中 特权 态 0 下 的 栈 顶 指针 esp0 为 next 内 核 线程 initproc 的 内 
核 栈 的 栈 顶 , 即 next —>kstack+KSTACKSIZE 。 

(3) 设置 CR3 寄存 器 的 值 为 next 内 核 线程 initproc 的 页 目录 表 起 始 地 址 next — > 
cr3 ,这 实际 上 是 完成 进程 间 的 页 表 切 换 。 
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(4) 由 switch_to 函数 完成 具体 的 两 个 线程 的 执行 现场 切换 , 即 切换 各 个 寄存 器 , 当 
switch_to 函数 执行 完 ret 指令 后 ,就 切换 到 initproc 执行 了 。 

注意 : 在 第 (2) 步 设置 任务 状态 段 ts 中 特权 态 0 下 的 栈 顶 指针 esp0 的 目的 是 建 好 内 核 
线程 或 将 来 用 户 线程 在 执行 特权 态 切换 (从 特权 态 0 转 到 特权 态 3, 或 从 特权 态 3 转 到 特权 
态 3) 时 能 够 正确 定位 处 于 特权 态 0 时 进程 的 内 核 栈 的 栈 顶 ,而 这 个 栈 顶 其 实 放 了 一 个 
trapframe 结构 的 内 存 空 间 。 如 果 是 在 特权 态 3 发生 了 中 断 / 异 常 /系统 调用 , 则 CPU 会 从 
特权 态 3 转换 特权 态 0, 且 CPU 从 此 栈 顶 (当前 被 打 断 进程 的 内 核 栈 顶 ) 开 始 压 栈 来 保存 被 
中 断 / 异 常 /系统 调用 打 断 的 用 户 态 执行 现场 ;如 果 是 在 特权 态 0 发 生 了 中 断 / 异 常 /系统 调 
用 , 则 CPU 会 从 当前 内 核 栈 指针 esp 所 指 的 位 置 开始 压 栈 保存 被 中 断 / 异 常 /系统 调用 打 断 
的 内 核 态 执行 现场 。 反 之 , 当 执行 完 对 中 断 / 异 常 /系统 调用 打 断 的 处 理 后 ,最 后 会 执行 一 个 
iret 指令 。 在 执行 此 指令 之 前 ,CPU 的 当前 栈 指针 esp 一 定 指向 上 次 产生 中 断 / 异 常 /系统 
调用 时 CPU 保存 的 被 打 断 的 指令 地 址 CS 和 EIP, iret 指令 会 根据 ESP 所 指 的 保存 的 址 CS 
和 EIP 恢复 到 上 次 被 打 断 的 地 方 继续 执行 。 

在 页 表 设 置 方面 ,由 于 idleproc 和 initproc 都 是 共用 一 个 内 核 页 表 boot_cr3 ,所 以 此 时 
第 三 步 其 实 没 用 ,但 考虑 到 以 后 的 进程 有 各 自 的 页 表 , 其 起 始 地 址 各 不 相同 ,只 有 完成 页 表 
切换 ,才能 确保 新 的 进程 能 够 正常 执行 。 

第 (4) 步 proc_run 函数 调用 switch_to 函数 ,参数 是 前 一 个 进程 和 后 一 个 进程 的 执行 现 
场 : process context。 在 5.3.2 节 中 ,描述 了 context 结构 包含 的 要 保存 和 恢复 的 寄存 器 。 
下 面 再 看 看 switch. S 中 的 switch_to 函数 的 执行 流程 : 


.glcbl switch to 

switch to: # switch to (from to) 
# save fram's registers 
movl 4(%esp), $eax # eax points to frm 


popl 0(% eax) #ep -> retum adress, so save retum attiress in FROM's antext 
movl % esp, 4(% eax) 


movl % bp, 28(% eax) # restore to's registers 

movl 4(%esp), % eax # not 8(% esp) : popped retum address already 
# eax now points to to 

movl 28 (% eax), $ ebp 


movl 4(% eax), esp 
pushl 0 (% eax) # push TO's context's eip, so retum addr= To's eip 
ret # after ret, eip=TO's eip 
首先 ,保存 前 一 个 进程 的 执行 现场 ,前 两 条 汇编 指令 (如 下 所 示 ) 保 存 了 进程 在 返回 
switch_to 函数 后 的 指令 地 址 到 context. eip 中 : 
movl 4(%esp), Seax #eax points to frm 
popl 0(% eax) #esp-—>retum adess, so save meim adess in FRM's antet 
在 接 下 来 的 7 条 汇编 指令 完成 了 保存 前 一 个 进程 的 其 他 7 个 寄存 器 到 context 中 的 相 
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应 成 员 变 量 中 。 至 此 前 一 个 进程 的 执行 现场 保存 完毕 。 再 往 后 是 恢复 向 一 个 进程 的 执行 现 
场 ,这 其 实 就 是 上 述 保存 过 程 的 道 执行 过 程 , 即 从 context 的 高 地 址 的 成 员 变 量 ebp 开始 ， 
逐一 把 相关 成 员 变 量 的 值 赋值 给 对 应 的 寄存 器 ,倒数 第 二 条 汇编 指令 “pushl 0(% eax)” FE 
实 把 context 中 保存 的 下 一 个 进程 要 执行 的 指令 地 址 context. eip 放 到 了 堆栈 顶 ,这 样 接 下 
来 执行 最 后 一 条 指令 ret 时 ,会 把 栈 顶 的 内 容 赋值 给 EIP 寄存 器 ,这 样 就 切换 到 下 一 个 进程 
执行 了 , 即 当前 进程 已 经 是 下 一 个 进程 。 

ucore 会 执行 进程 切换 ,让 initproc 执行 。 在 对 initproc 进行 初始 化 时 ,设置 initproc— > 
context. eip = (uintptr_t)forkret, 这 样 , 当 执行 switch_to 函数 并 返回 后 ,initproc 将 执行 其 
实际 上 的 执行 人 口 地 址 forkret。 而 forkret 会 调用 位 于 kern/trap/trapentry. S 中 的 
forkrets 函数 执行 ,具体 代码 如 下 : 


-glabl _trapret 
__trapret: 
# restore registers fram stack 
poal 
# restore %ds and $ es 
popl $es 
pol% ds 
# get rid of the trap number and error code 
addl $ 0x8,% esp 
iret 
-globl forkrets 
forkrets: 
# set stack to this new process's trapframe 
movl 4(% esp), esp // 把 esp 指向 当前 进程 的 中 断 帧 
jmp__trapret 
可 以 看 出 ,forkrets 函数 首先 把 esp 指向 当前 进程 的 中 断 帧 ,从 _trapret 开始 执行 到 iret 前 ， 
esp 指向 了 current — > tf. tf_eip, 而 如 果 此 时 执行 的 是 initproc. M) current — > tf. tf_eip= 
kernel_thread_entry,initproc— >tf. tf_cs = KERNEL_CS, 所 以 当 执行 完 iret 后 ,就 开始 
在 内 核 中 执行 kernel_thread_entry 图 数 了 ,而 initproc— > tf. tf_regs. reg_ebx = init_ 
main ,所 以 在 kernl_thread_entry 中 执行 “call %ebx” 后 ,就 开始 执行 initproc 的 主体 了 。 
initprocde 的 主体 函数 就 是 输出 一 段 字符 串 ,然后 就 返回 到 kernel_tread_entry 函数 ,并 进 
一 步调 用 do_exit 执行 退出 操作 了 。 本 来 do_exit 应 该 完成 一 些 资源 回收 工作 等 ,但 这 些 不 
是 实验 4 涉及 的 ,而 是 由 后 续 的 实验 来 完成 。 至 此 ,实验 4 中 的 主要 工作 描述 完毕 。 


5.4 实验 报告 要 求 


从 网 站 上 下 载 lab4. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab4, 完 成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab4- 
handin. tar. gz。 最 后 请 一 定 提前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab4 的 注释 ,代码 中 所 有 需要 完成 的 地 方 (Challenge 除外 ) 都 有 lab4 和 “Your 
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Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 “Your Code” 替 换 为 自己 的 学 号 ,并 且 将 
所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 


辅助 材料 A 实验 4 的 参考 输出 


make gem 
(THU.CST)os is loading... 


Special kemel symbols: 

entry 0xc010002c (phys) 

etext  OxcOLOdO£7 (phys) 

edata 0xc012dad0 (phys) 

end Oxc0130878 (phys) 

Kemel executable memory footprint: 196KB 
memory Management: default pm manager 
e820map: 

memory: 0009£400, [00000000, 0009E3ff], type=1. 
memory: 00000c00, [0009f400, 0009ffff], type=2. 
memory: 00010000, [000£0000, O00fEfFFF], type=2. 
memory: O7efd000, [00100000, O7ffcfff], type=1. 
memory: 00003000, [07ffd000, O7EFFEfE], type=2. 
memory: 00040000, [fffc0000, ffffffff], type=2. 
check_alloc_page() sucoseded! 


PDE (0e0) c0000000- £8000000 38000000 urw 
|- - PTE (38000) c0000000- £8000000 38000000- rw 
EDE (001) fac00000- fb000000 00400000- rw 
|- - PIE (000e0) faf00000- fafe0000 00020000 urw 
|- - PIE (00001) fafeb000- fafec000 00001000- rw 


check_slab() succeeded! 

kmalloc_init() succeeded! 

check_vma_struct() succeeded! 

page fault at 0x00000100: K/W [no page found] . 

check _pgfault() sucoseded! 

check wm() succeeded. 

ide 0: 10000 (sectors), "QEMU HARDDISK". 

ide l: 262144 (sectors), 'CEMJ HARDDISK". 

SWAP: manager= fifo swap manager 

BEGIN check swap: count 1, total 31944 

m- > sm priv c0130e64 in fifo init mm 

setup Page Table for vaddr 0X1000, so alloc a page 
* 123 * 


setup Page Table vaddr 0~ 4B OVER! 
setup init env for check swap begin! 
page fault at 0x00001000: K/W [no page found]. 
page fault at 0x00002000: K/W [no page found]. 
page fault at 0x00003000: K/W [no page found]. 
page fault at 0x00004000: K/W [no page found]. 
set up init env for check swap over! 
write Virt Page c in fifo check swap 
write Virt Page a in fifo check swap 
write Virt Page d in fifo check swap 
write Virt Page b in fifo check swap 
write Virt Page e in fifo check swap 
page fault at 0x00005000: K/W [no page found] . 
swap out: i 0, store page in vaddr 0x1000 to disk swap entry 2 
write Virt Page b in fifo check swap 
write Virt Page a in fifo check swap 
page fault at 0x00001000: K/W [no page found]. 
swap out: i 0, store page in vaddr 0x2000 to disk swap entry 3 
Swap in: load disk swap entry 2 with swap pag in vadr 0x1000 
write Virt Page b in fifo check swap 
page fault at 000002000: K/W [no page found]. 
swap out: i 0, store page in vaddr 0x3000 to disk swap entry 4 
swap in: load disk swap entry 3 with swap pag in vadr 0x2000 
write Virt Page c in fifo check swap 
page fault at 0x00003000: K/W [no page found] . 
swap out: i 0, store page in vaddr 04000 to disk swap entry 5 
swap_in: load disk swap entry 4 with swap pag in vadr 03000 
write Virt Page d in fifo check swap 
page fault at 000004000: K/W [no page found] . 
swap out: i 0, store page in vaddr 0x5000 to disk swap entry 6 
swap in: load disk swap entry 5 with swap pag in vadr 04000 
check_swap() succeeded! 
++ setup timer interrupts 
this initproc, pid= 1, name= "init" 
To U: "Hello world!!". 
To U: "en.., Bye, Bye. :)" 
kernel panic at kem/process/proc.c:316: 
process exit!!. 


Welcate to the kemel debug monitor!! 
Type 'help' for a list of commands. 
kb 


辅助 材料 B “原理 ”进程 的 属性 与 特征 解析 


操作 系统 负责 进程 管理 , 即 从 程序 加 载 到 运行 结束 的 全 过 程 ,这 个 程序 


esas 


运行 


过 程 将 经 历 


从 “出 生 ” 到 “死亡 ”的 完整 “生命 历程。 所谓“ 进程 ”就 是 指 这 个 程序 运行 的 整个 执行 过 程 。 
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为 了 记录 描述 和 管理 程序 执行 的 动态 变化 过 程 , 需 要 有 一 个 数据 结构 ,这 就 是 进程 控制 块 。 
进程 与 进程 控制 块 是 一 一 对 应 的 。 为 此 ,ucore 需要 建立 合适 的 进程 控制 块 数据 结构 ,并 基 
于 进程 控制 块 来 完成 对 进程 的 管理 。 

为 了 让 多 个 程序 能 够 使 用 CPU 执行 任务 ,需要 设计 用 于 进程 管理 的 内 核 数据 结构 “ 进 
程控 制 块 "。 但 到 底 如 何 设计 进程 控制 块 , 如 何 管理 进程 ”如 果 对 进程 的 属性 和 特征 了 解 不 
够 , 则 无 法 有 效 地 设计 进程 控制 块 和 实现 进程 管理 。 

再 一 次 回 到 进程 的 定义 ; 一 个 具有 一 定 独 立功 能 的 程序 在 一 个 数据 集合 上 的 一 次 动态 
执行 过 程 。 这 里 有 四 个 关键 词 : 程序 .数据 集合 .执行 和 动态 执行 过 程 。 从 CPU 的 角度 来 
看 ,程序 就 是 一 段 特定 的 指令 机 器 码 序 列 而 已 。CPU 会 一 条 一 条 地 取出 在 内 存 中 程序 的 指 
令 并 按照 指令 的 含义 执行 各 种 功能 ;数据 集合 就 是 使 用 的 内 存 ;执行 就 是 让 CPU 工作 。 这 
个 数据 集合 和 执行 其 实体 现 了 进程 对 资源 的 占用 。 动 态 执行 过 程 体现 了 程序 执行 的 不 同 
“生命 阶段: 诞生、 工作、 休息 /等 竺 .死亡 。 如 果 这 一 段 指令 执行 完毕 ,也 就 意味 着 进程 结 
束 了 。 从 开始 执行 到 执行 结束 是 一 个 进程 的 全 过 程 。 那 么 操作 系统 需要 管理 进程 的 什么 ? 
如 果 计 算 机 系统 中 只 有 一 个 进程 ,那么 操作 系统 的 工作 就 简单 了 。 进 程 管理 就 是 管理 进程 
执行 的 指令 ,进程 占用 的 资源 ,进程 执行 的 状态 。 这 可 归结 为 对 一 个 进程 内 的 管理 工作 。 但 
实际 上 在 计算 机 系统 的 内 存 中 ,可 以 放 很 多 程序 ,这 也 就 意味 着 操作 系统 需要 管理 多 个 进 
程 ,那么 ,为 了 协调 各 进程 对 系统 资源 的 使 用 ,进程 管理 还 需要 做 一 些 与 进程 协调 有 关 的 其 
他 管理 工作 ,包括 进程 调度 .进程 间 的 数据 共享 .进程 间 执 行 的 同步 互 斥 关系 (后 续 相 关 实 验 
涉及 ) 等 。 下 面 逐 一 进行 解析 。 

1, 资源 管理 

在 计算 机 系统 中 ,进程 会 占用 内 存 和 CPU, 这 都 是 有 限 的 资源 ,如 果 不 进 行 合 理 的 管 
理 , 资 源 会 耗 尽 或 无 法 高 效 公 平地 使 用 ,从 而 会 导致 计算 机 系统 中 的 多 个 进程 执行 效率 很 
低 ,甚至 由 于 资源 不 够 而 无 法 正常 执行 。 

对 于 用 户 进程 而 言 ,操作 系统 是 它 的 “上 帝 ” ,操作 系统 给 了 用 户 进 程 可 以 运行 所 需 的 资 
源 , 最 基本 的 资源 就 是 内 存 和 CPU。 在 实验 2 和 实验 3 中 涉及 的 内 存 管 理 方法 和 机 制 可 直 
接应 用 到 进程 的 内 存 资源 管理 中 。 在 有 多 个 进程 存在 的 情况 下 ,对 于 CPU 这 种 资源 , 则 需 
要 通过 进程 调度 来 合理 选择 一 个 进程 ,并 进一步 通过 进程 分 派 和 进程 切换 让 不 同 的 进程 分 
时 复 用 CPU ,执行 各 自 的 工作 。 对 于 无 法 剥夺 的 共享 资源 ,如 果 资 源 管理 不 当 , 多 个 进程 会 

2. 进程 状态 管理 

用 户 进程 有 不 同 的 状态 (可 理解 为 “生命 ”的 不 同 阶段 ), 当 操作 系统 把 程序 的 放 到 内 存 
中 后 ,这 个 进程 就 “诞生 ”了 ,不 过 还 没有 开始 执行 ,但 已 经 消耗 了 内 存 资源 ,处 于 “创建 ” 状 
态 ; 当 进程 准备 好 各 种 资源 ,就 等 能 够 使 用 CPU 时 ,进程 处 于 “就 绪 ” 状 态 ; 当 进 程 终于 占用 
CPU ,程序 的 指令 被 CPU 一 条 一 条 执行 的 时 候 , 这 个 进程 就 进入 了 “运行 ”状态 ,这 时 除了 
继续 占用 内 存 资 源 外 ,还 占用 了 CPU 资源 ; 当 进 程 由 于 等 待 某 个 资源 而 无 法 继续 执行 时 ， 
进程 可 放弃 CPU 使 用 , 即 释 放 CPU 资源 ,进入 “等 待 ” 状 态 ; 当 程序 指令 执行 完毕 ,由 操作 
系统 回收 进程 所 占用 的 资源 时 ,进程 进入 了 “死亡 ”状态 。 

这 些 进程 状态 的 转换 时 机 需要 操作 系统 管理 起 来 ,而且 进 程 的 创建 和 清除 等 服务 必须 
由 操作 系统 提供 ,而 且 在 “运行 ”与 “就 绪 ”/* 等 待 ”状态 之 间 的 转换 ,涉及 保存 和 恢复 进程 的 

+ 125 。 


“执行 现场 ”, 也 就 是 进程 上 下 文 , 这 是 确保 进程 即使 “断断续续 ”地 执行 ,也 能 正确 完成 工作 
的 必要 保证 。 

3. 进程 与 线程 

一 个 进程 拥有 一 个 存放 程序 和 数据 的 虚拟 地 址 空间 和 其 他 资源 。 一 个 进程 基于 程序 的 

指令 流 执 行 ,其 执行 过 程 可 能 与 其 他 进程 的 执行 过 程 交 替 进 行 。 因 此 ,一 个 具有 执行 状态 
(运行 态 就绪 态 等 ) 的 进程 是 一 个 被 操作 系统 分 配 资源 (比如 分 配 内 存 ) 并 调度 (比如 分 时 使 
用 CPU) 的 单位 。 在 大 多 数 操作 系统 中 ,这 两 个 特点 是 进程 的 主要 本 质 特征 。 但 这 两 个 特 
征 相 对 独立 ,操作 系统 可 以 把 这 两 个 特征 分 别 进行 管理 

这 样 可 以 把 拥有 资源 所 有 权 的 单位 通常 仍 称 为 进程 ,对 资源 的 管理 成 为 进程 管理 ;把 指 
令 执行 流 的 单位 称 为 线程 ,对 线程 的 管理 就 是 线程 调度 和 线程 分 派 。 对 属于 同一 进程 的 所 
有 线程 而 言 , 这 些 线程 共享 进程 的 虚拟 地 址 空间 和 其 他 资源 ,但 每 个 线程 都 有 一 个 独立 的 
栈 , 还 有 独立 的 线程 运行 上 下 文 , 用 于 包含 表示 线程 执行 现场 的 寄存 器 值 等 信息 。 

在 多 线程 环境 中 ,进程 被 定义 成 资源 分 配 与 保护 的 单位 ,与 进程 相关 联 的 信息 主要 有 存 
放 进 程 映像 的 虚拟 地 址 空间 等 。 在 一 个 进程 中 ,可 能 有 一 个 或 多 个 线程 ,每 个 线程 有 线程 执 
行 状态 (运行 .就 绪 、 等 待 等 ) ,保存 上 次 运行 时 的 线程 上 下 文 、 线 程 的 执行 栈 等 。 考 虑 到 
CPU 有 不 同 的 特权 模式 ,参照 进程 的 分 类 ,线程 又 可 进一步 细 化 为 用 户 线程 和 内 核 线程 。 

到 目前 为 止 ,我 们 就 可 以 明确 用 户 进 程 、 内 核 进程 (可 把 ucore 看 成 一 个 内 核 进程 )、 用 
户 线程 .内 核 线程 的 区 别 了 。 从 本 质 上 看 ,线程 就 是 一 个 特殊 的 不 用 拥有 资源 的 轻 量 级 进 
程 ,在 ucore 的 调度 和 执行 管理 中 ,并 没有 区 分 线程 和 进程 , 且 由 于 ucore 内 核 中 的 所 有 内 核 
线程 共享 一 个 内 核 地 址 空间 和 其 他 资源 ,所 以 这 些 内 核 线程 从 属于 同一 个 唯一 的 内 核 进程 ， 
即 ucore 内 核 本 身 。 理 解 了 进程 或 线程 的 上 述 属性 和 特征 ,就 可 以 进行 进程 /线程 管理 的 设 
计 与 实现 了 。 但 是 为 了 叙述 上 的 简便 ,以 下 用 户 态 的 进程 /线程 统称 为 用 户 进程 。 
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第 6 章 实验 5: 用 户 进程 管理 


6.1 实验 目的 


(1) 了 解 第 一 个 用 户 进程 创建 的 过 程 。 

(2) 了 解 系统 调用 框架 的 实现 机 制 。 

(3) 了 解 ucore 如 何 实现 系统 调用 sys_fork/sys_exec/sys_exit/sys_wait 来 进行 进程 
管理 。 


6.2 实验 内 容 


实验 4 完成 了 内 核 线程 ,但 到 目前 为 止 , 所 有 的 运行 都 在 内 核 态 执行 。 实 验 5 将 创建 用 
户 进程 ,让 用 户 进程 在 用 户 态 执行 , 且 在 需要 ucore 支持 时 ,可 通过 系统 调用 来 让 ucore 提供 
服务 。 为 此 需要 构造 出 第 一 个 用 户 进程 ,并 通过 系统 调用 sys_fork/sys_exec/sys_exit/sys_ 
wait 来 支持 运行 不 同 的 应 用 程序 ,完成 对 用 户 进程 的 执行 过 程 的 基本 管理 。 相 关 原 理 介 绍 
可 看 本 章 附录 B。 


6.2.1 练习 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1 一 实验 4。 请 把 已 做 的 实验 1 一 实验 4 的 代码 填 人 本 实验 中 代码 中 
有 labl lab2 .lab3 \lab4 的 注释 相应 部 分 。 

注意 : 为 了 能 够 正确 执行 lab5 的 测试 应 用 程序 ,可 能 需 对 已 完成 的 实验 1 一 实验 4 的 
代码 进行 进一步 改进 。 

练习 1: 加载 应 用 程序 并 执行 (需要 编码 ) 。 

do_execv 函数 调用 load_icode( 位 于 kern/process/proc. c 中 ) 来 加 载 并 解析 一 个 处 于 
内 存 中 的 ELF 执行 文件 格式 的 应 用 程序 ,建立 相应 的 用 户 内 存 空间 来 放置 应 用 程序 的 代 
码 段 .数据 段 等 , 且 要 设置 好 proc_struct 结构 中 的 成 员 变 量 trapframe 中 的 内 容 ,确保 在 执 
行 此 进程 后 ,能 够 从 应 用 程序 设 定 的 起 始 执 行 地 址 开始 执行 。 需 设置 正确 的 trapframe 
内 容 。 

练习 2: 父 进 程 复 制 自己 的 内 存 空间 给 子 进程 (需要 编码 )。 

创建 子 进程 的 函数 do_fork 在 执行 中 将 复制 当前 进程 ( 即 父 进程 ) 的 用 户 内 存 地 址 
空间 中 的 合法 内 容 到 新 进程 中 ( 子 进程 ), 完 成 内 存 资源 的 复制 。 具 体 是 通过 copy_ 
range 函数 (位 于 kern/mm/pmm. c 中) 实现 的 ,请 补充 copy_range 的 实现 ,确保 能 够 正 
确 执行 。 

练习 3: 阅读 分 析 源 代码 ,理解 进程 执行 fork/exec/wait/exit 的 实现 ,以 及 系统 调用 的 
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实现 (不 需要 编码 ) 。 

执行 : make grade。 如 果 所 显示 的 应 用 程序 检测 都 输出 ok, 则 基本 正确 (使 用 的 是 
qemu-1. 0. 1)。 

扩展 练习 Challenge: 实现 Copy on Write 机 制 。 

这 个 扩展 练习 涉及 本 实验 和 实验 “虚拟 内 存 管 理 ”。Copy on write(COW) 的 基本 概念 
是 指 如 果 有 多 个 使 用 者 对 同一 个 资源 A( 比 如 内 存 块 ) 进 行 读 操作 , 则 每 个 使 用 者 只 需 获 得 
一 个 指向 同一 个 资源 A 的 指针 ,就 可 以 读 该 资源 了 。 若 某 使 用 者 需要 对 这 个 资源 A 进行 写 
操作 ,系统 会 对 该 资源 进行 复制 操作 ,从 而 使 得 该 * 写 操作 ”使 用 者 获得 一 个 该 资源 A 的 “ 私 
有 ”副本 一 一 资源 ,可 对 资源 B 进行 写 操作 。 该 “ 写 操作 ”使 用 者 对 资源 B 的 改变 对 于 其 他 
的 使 用 者 而 言 是 不 可 见 的 ,因为 其 他 使 用 者 看 到 的 还 是 资源 A。 

在 ucore 操作 系统 中 , 当 一 个 用 户 父 进程 创建 自己 的 子 进 程 时 , 父 进程 会 把 其 申请 的 用 
户 空 间 设 置 为 只 读 , 子 进程 可 共享 父 进程 占用 的 用 户 内 存 空间 中 的 页 面 ( 这 就 是 一 个 共享 的 
资源 )。 当 其 中 任何 一 个 进程 修改 此 用 户 内 存 空间 中 的 某 页 面 时 ,ucore 会 通过 page fault 
异常 获知 该 操作 ,并 完成 复制 内 存 页 面 ,使 得 两 个 进程 都 有 各 自 的 内 存 页 面 。 这 样 一 个 进程 
所 做 的 修改 不 会 被 另外 一 个 进程 可 见 。 请 在 ucore 中 实现 这 样 的 COW 机 制 。 


6.2.2 项 目 组 成 


目录 结构 图 如 图 6-1 所 示 。 

相对 于 实验 4, 实 验 5 主要 增加 的 文件 有 syscall. c syscall. h .unistd. huser. ld, hello. c 
和 initcode. s 等 ,主要 修改 的 文件 有 kdebug. c, memlayout. h, pmm. c, pmm. h, vmm. c, 
vmm. h proc. c,proc. hysched. c\sync. helf. h error. h,printfmt. c 等 。 主 要 改动 如 下 。 

1. kern/debug/ 

kdebug. c: 修改 ,解析 用 户 进 程 的 符号 信息 表示 (可 不 用 理会 ) 。 

2. kern/mm/( 与 本 次 实验 有 较 大 关系 ) 

memlayout. h: 修改 ,增加 了 用 户 虚 存 地 址 空间 的 图 形 表示 和 宏 定 义 ( 需 仔 细 理 解 ) 。 

pmm. [ch]; 修改 ,添加 了 用 于 进程 退出 (do_exit) 的 内 存 资源 回收 的 page_remove_ 
pte、unmap_range、exit_range 函数 和 用 于 创建 子 进 程 (do_fork) 中 复制 父 进程 内 存 空 间 的 
copy_range PA AK. {kT pgdir_alloc_page AR. 

vmm. [ch]: 修改 ,扩展 了 mm_struct 数据 结构 ,增加 了 一 系列 函数 。 

(1) mm_map/dup_mmap/exit_mmap: 设 定 /取消 /复制 /删除 用 户 进程 的 合法 内 存 
空间 。 

(2) copy_from_user/copy_to_user: 用 户 内 存 空间 内 容 与 内 核 内 存 空间 内 容 的 相互 复 
制 的 实现 。 

(3) user_mem_check: 搜索 vma 链表 ,检查 是 否 是 一 个 合法 的 用 户 空间 范围 。 

3. kern/process/( 与 本 次 实验 有 较 大 关系 ) 

proc. [ch]: 修改 ,扩展 了 proc_struct 数据 结构 ,增加 或 修改 了 一 系列 函数 。 

(1) setup_pgdir/put_pgdir: 创建 并 设置 /释放 页 目录 表 。 

(2) copy_mm: 复制 用 户 进程 的 内 存 空间 和 设置 相关 内 存 管 理 ( 如 页 表 等 ) 信 息 。 

(3) do_exit: 释放 进程 自身 所 占 内 存 空 间 和 相关 内 存 管理 (如 页 表 等 ) 信 息 所 占 空 间 ， 
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boot 


kern 


| libs 


— tools 


user 


debug 
kdebug.c 


| 一 一 mm 


memlayout.h 
| 一 一 pmm.c 
+—— pmm.h 
vmm.c 
vmm.h 
process 

H proc.c 
proc.h 


schedule 
sched.c 


syne 
L— syne.h 
syscall 
syscall.c 
syscall.h 


trap 


|— trap.c 


trapentry.S 


| trap.h 


vectors.S 


elfh 
error.h 
printfmt.c 
unistd.h 


user.Id 


hello.c 


libs 

initcode.S 
syscall.c 
syscall.h 


图 6-1 目录 结构 图 


唤醒 父 进程 ,好 让 父 进 程 收 了 自己 ,让 调度 器 切换 到 其 他 进程 。 
(4) load_icode: 被 do_execve 调用 ,完成 加 载 放 在 内 存 中 的 执行 程序 到 进程 空间 ,这 涉 


及 对 页 表 等 的 修改 ,分 配 用 户 栈 。 


(5) do_execve: 先 回收 自身 所 占用 户 空间 ,然后 调用 load_icode, 用 新 的 程序 覆盖 内 存 


空间 ,形成 一 个 执行 新 程序 的 新 进程 。 
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(6) do_yield: 让 调度 器 执行 一 次 选择 新 进程 的 过 程 。 

(7) do_wait: 父 进程 等 待 子 进程 .并 在 得 到 子 进程 的 退出 消息 后 ,彻底 回收 子 进程 所 占 
的 资源 (比如 子 进程 的 内 核 栈 和 进程 控制 块 ) 。 

(8) do_kill: 给 一 个 进程 设置 PF_EXITING 标志 (kill 信息 , 即 要 它 死 掉 ) ,这 样 在 trap 
函数 中 ,将 根据 此 标志 ,让 进程 退出 。 

(9) KERNEL_EXECVE/__KERNEL_EXECVE/__KERNEL_EXECVE2: 被 user_ 
main 调用 ,执行 一 用 户 进程 。 

4. kern/trap/ 

trap. c: 修改 ,在 idt_init 函数 中 ,对 IDT 初始 化 时 ,设置 好 了 用 于 系统 调用 的 中 断 门 
(CidtLT_SYSCALL]) 信 息 。 这 主要 与 syscall 的 实现 相关 。 

5. user/ * 


新 增 的 用 户 程序 和 用 户 库 。 


6.3 ”用户 进程 管理 

6.3.1 实验 执行 流程 概述 

到 实验 4 为 止 ,ucore 还 一 直 在 核心 态 " 打 转 ”, 没 有 到 用 户 态 执行 。 提 供 各 种 操作 系统 
功能 的 内 核 线程 只 能 在 CPU 核心 态 运行 是 操作 系统 自身 的 要 求 ,操作 系统 就 要 待 在 核心 
AS ,才能 管理 整个 计算 机 系统 。 但 应 用 程序 员 也 需要 编写 各 种 应 用 软件 , 且 要 在 计算 机 系统 
上 和 运行。 如 果 把 这 些 应 用 软件 都 作为 内 核 线程 来 执行 , 那 系统 的 安全 性 就 无 法 得 到 保证 了 。 
所 以 ,ucore 要 提供 用 户 态 进程 的 创建 和 执行 机 制 , 给 应 用 程序 执行 提供 一 个 用 户 态 运行 环 
境 。 接 下 来 我 们 就 简要 分 析 本 实验 的 执行 过 程 ,以 及 分 析 用 户 进 程 的 整个 生命 周期 来 阐述 
用 户 进 程 管理 的 设计 与 实现 。 

显然 ,由 于 进程 的 执行 空间 扩展 到 了 用 户 态 空间 , 且 出 现 了 创建 子 进 程 执行 应 用 程序 等 
与 lab4 有 较 大 不 同 的 地 方 , 所 以 具体 实现 的 不 同 主要 集中 在 进程 管理 和 内 存 管 ri 首 
先 ,从 ucore 的 初始 化 部 分 来 看 ,会 发 现 初 始 化 的 总 控 函 数 kern_init 没有 任何 变化 。 但 这 
并 不 意味 着 lab4 与 lab5 的 差别 不 大 。 其 实 kern_init 调用 的 物理 内 存 初始 化 ,进程 管理 初 
始 化 等 都 有 一 定 的 变化 。 

在 内 存 管 理 部 分 ,与 lab4 最 大 的 区 别 就 是 增加 了 用 户 态 虚拟 内 存 的 管理 。 为 了 管理 用 
户 态 的 虚拟 内 存 ,需要 对 页 表 的 内 容 进行 扩展 ,能 够 把 部 分 物理 内 存 映射 为 用 户 态 虚 拟 内 
存 。 如 果 某 进程 执行 过 程 中 ,CPU 在 用 户 态 下 执行 (在 CS 段 寄 存 器 最 低 两 位 包含 一 个 2 位 
的 优先 级 域 ,如 果 为 0, 表示 CPU 运行 在 特权 态 ; 如 果 为 3, 表 示 CPU 运行 在 用 户 态 ), 则 可 
以 访问 本 进程 页 表 描 述 的 用 户 态 虚 拟 内 存 , 但 由 于 权限 不 够 ,不 能 访问 内 核 态 虚 拟 内 存 。 男 
外 ,不 同 的 进程 有 各 自 的 页 表 , 所 以 即使 不 同 进 程 的 用 户 态 虚拟 地 址 相同 ,但 由 于 页 表 把 虚 
拟 页 映射 到 了 不 同 的 物理 页 帧 ,所 以 不 同 进程 的 虚拟 内 存 空间 是 被 隔离 开 的 ,相互 之 间 无 法 
直接 访问 。 在 用 户 态 内 存 空间 和 内 核 态 内 核 空间 之 间 需 要 复制 数据 ,让 CPU 处 在 内 核 态 
才能 完成 对 用 户 空间 的 读 或 写 ,为 此 需要 设计 专门 的 复制 函数 (copy_from_user 和 copy_to 
_user) 完 成 。 但 反之 则 会 导致 违反 CPU 的 权限 管理 ,导致 内 存 访问 异常 。 
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在 进程 管理 方面 ,主要 涉及 的 是 进程 控制 块 中 与 内 存 管理 相关 的 部 分 ,包括 建立 进程 的 
页 表 和 维护 进程 可 访问 空间 (可 能 还 没有 建立 虚实 映射 关系 ) 的 信息 ;加 载 一 个 ELF 格式 的 
程序 到 进程 控制 块 管理 的 内 存 中 的 方法 ;在 进程 复制 (fork) 过 程 中 ,把 父 进程 的 内 存 空 间 复 
制 到 子 进程 内 存 空间 的 技术 。 另 外 一 部 分 与 用 户 态 进程 生命 周期 管理 相关 ,包括 让 进程 放 
弃 CPU 而 睡眠 等 待 某 事件 ;让 父 进程 等 待 子 进程 结束 ;一 个 进程 杀 死 另 一 个 进程 ;给 进程 
发 送 消息 ;建立 进程 的 血缘 关系 链表 。 

当 实 现 了 上 述 内 存 管理 和 进程 管理 的 需求 后 , 接 下 来 ucore 的 用 户 进程 管理 工作 就 比 
较 简单 了 。 首 先 ,“ 硬 ”构造 出 第 一 个 进程 (lab4 中 已 有 描述 ) , 它 是 后 续 所 有 进程 的 祖先 ; 然 
后 ,在 proc_init 函数 中 ,通过 alloc 把 当前 ucore 的 执行 环境 转变 成 idle 内 核 线程 的 执行 现 
场 ; 然 后 调用 kernl_thread 来 创建 第 二 个 内 核 线 程 init_main ,而 init_main 内 核 线程 又 创建 
了 user_main 内 核 线程 。 到 此 ,内 核 线程 创建 完毕 ,应 该 开始 用 户 进程 的 创建 过 程 ,这 一 步 
实际 上 是 通过 user_main 函数 调用 kernel_tread 创建 子 进程 ,通过 kernel_execve 调用 来 把 
某 一 具体 程序 的 执行 内 容 放 入 内 存 。 具 体 的 放置 方式 是 根据 ld 在 此 文件 上 的 地 址 分 配 为 
基本 原则 ,把 程序 的 不 同 部 分 放 到 某 进 程 的 用 户 空间 中 ,从 而 通过 此 进程 来 完成 程序 描述 的 
任务 。 一 旦 执行 了 这 一 程序 对 应 的 进程 ,就 会 从 内 核 态 切换 到 用 户 态 继续 执行 。 以 此 类 推 ， 
CPU 在 用 户 空间 执行 的 用 户 进程 ,其 地 址 空间 不 会 被 其 他 用 户 的 进程 影响 ,但 由 于 系统 调 
用 (用 户 进 程 直接 获得 操作 系统 服务 的 唯一 通道 ) 、 外 设 中 断 和 异常 中 断 的 会 随时 产生 ,从 而 
间接 推动 了 用 户 进程 实现 用 户 态 到 内 核 态 的 切换 工作 。ucore 对 CPU 内 核 态 与 用 户 态 的 
切换 过 程 需要 比较 仔细 地 分 析 ( 这 其 实 是 实验 1 的 扩展 练习 )。 当 进程 执行 结束 后 , 需 回 收 进 
程 占用 和 没 消耗 完毕 的 设备 整个 过 程 , 且 为 新 的 创建 进程 请 求 提供 服务 。 在 本 实验 中 , 当 系 统 
中 存在 多 个 进程 或 内 核 线程 时 , ucore 采用 了 一 种 FIFO 的 很 简单 的 调度 方法 来 管理 每 个 进程 
占用 CPU 的 时 间 和 频 度 等 。 在 ucore 运行 过 程 中 ,由 于 调度 、 时 间 中 断 、 系 统 调用 等 原因 ,使 得 
进程 会 进行 切换 .创建 .睡眠 、 等 待 ,发 送 消息 等 各 种 不 同 的 操作 ,周而复始 ,生生 不 息 。 


6.3.2 创建 用 户 进程 


在 实验 4 中 ,已 经 完成 了 对 内 核 线程 的 创建 ,但 与 用 户 进程 的 创建 过 程 相 比 ,创建 内 核 线 
程 的 过 程 还 远 远 不 够 。 这 两 个 创建 过 程 的 差异 本 质 上 就 是 用 户 进程 和 内 核 线程 的 差异 决定 的 。 

1. 应 用 程序 的 组 成 和 编译 

我 们 首先 来 看 一 个 应 用 程序 ,这 里 假定 是 hello 应 用 程序 ,在 user/hello. c 中 实现 ,代码 如 下 : 


# include < stdio.h> 

#include< ulib.h> 

int 

main(void) { 
œrintf ("Hello world!!.\n"); 
oprintf ("I am process % d.\n",getpid()); 
oprintf ("hello pass.\n"); 

retum0; 

} 


hello 应 用 程序 只 是 输出 一 些 字 符 串 ,并 通过 系统 调用 sys_getpid( 在 getpid 函数 中 调 
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用 ) 输 出 代表 hello 应 用 程序 执行 的 用 户 进程 的 进程 标识 pid, 

首先 ,我 们 需要 了 解 ucore 操作 系统 如 何 能 够 找到 hello 应 用 程序 。 这 需要 分 析 ucore 
和 hello 是 如 何 编译 的 。 修 改 Makefile, 把 第 6 行 注 释 掉 。 然 后 在 本 实验 源码 目录 下 执行 
make, 可 得 到 如 下 输出 : 


+cc user/hello.c 


gcc- Tuser/- fno- builtin- Wall- ggb- m32- gstabs- nostdinc - fno- stack- protector- Ilibs/- Iuser/include/ 
- Iuser/libs/- c user/hello.c- o dbj/user/hello.o 


ld-m elf i386- nostdlib- T tools/user.ld- o dbj/ user hello.out dbj/user/libs/initoode.o obj/ 
user/libs/panic. o dbj/user/libs/stdio. o dbj/user/libs/syscall. o dbj/user/libs/ulib. o dbj/user/libs/ 
umin.o œj/libs/hash.o obj/libs/printfint.o dbj/libs/rand.o dbj/Libs/string.o obj/user/hello.o 


ld-m elf i386- nostdlib- T tools/kemel.ld- o bin/kemel dbj/kem/init/entry.o bj/kerm/init/init.o 
“*-b binary*+obj/__user_hello.out 


从 中 可 以 看 出 ,hello 应 用 程序 不 仅仅 是 hello. c, 还 包含 了 支持 hello 应 用 程序 的 用 户 态 库 。 

(1) user/libs/initcode. S; 所 有 应 用 程序 的 起 始 用 户 态 执 行 地 址 _start, 调 整 了 EBP 和 
ESP 后 ,调用 umain 函数 。 

(2) user/libs/umain. c: 实现 了 umain 函数 ,这 是 所 有 应 用 程序 执行 的 第 一 个 C 函数 ， 
它 将 调用 应 用 程序 的 main 函数 ,并 在 main 函数 结束 后 调用 exit 函数 ,而 exit 函数 最 终 将 
调用 sys_exit 系统 调用 ,让 操作 系统 回收 进程 资源 。 

(3) user/libs/ulib. [ch]: 实现 了 最 小 的 C 函数 库 , 除 了 一 些 与 系统 调用 无 关 的 函数 ， 
其 他 函数 是 对 访问 系统 调用 的 包装 。 

(4) user/libs/syscall. [ch]; 用 户 层 发 出 系统 调用 的 具体 实现 。 

(5) user/libs/stdio. c: 实现 cprintf 函数 ,通过 系统 调用 sys_putc 来 完成 字符 输出 。 

(6) user/libs/panic. c: 实现 __panic/__warn 函数 ,通过 系统 调用 sys_exit 完成 用 户 进 
程 退出 。 

除了 这 些 用 户 态 库 函 数 实现 外 ,还 有 一 些 libs/ * . [chj 是 操作 系统 内 核 和 应 用 程序 
用 的 函数 实现 。 这 些 用 户 库 函数 其 实在 本 质 上 与 UNIX 系统 中 的 标准 libe 没有 区 别 ， 只 是 
实现 得 很 简单 ,但 hello 应 用 程序 的 正确 执行 离 不 开 这 些 库 函 数 。 

注意 : libs/ * . [ch] user/libs/*x.[chj\user/x.[ch] 的 源码 中 没有 任何 特权 指令 。 

在 make 的 最 后 一 步 执行 了 一 个 ld 命令 ,把 hello 应 用 程序 的 执行 码 obj/__user_hello. 
out 连接 在 了 ucore kernel 的 末尾 。 且 ld 命令 会 在 kernel 中 把 _user_hello. out 的 位 置 和 
大 小 记录 在 全 局 变量 _binary_obj __user_hello_out_start #il_binary_obj___user_hello_out_ 
size 中 ,这 样 这 个 hello 用 户 程序 就 能 够 和 ucore 内 核 一 起 被 bootloader 加 载 到 内 存 中 ,并 
且 通 过 这 两 个 全 局 变量 定位 hello 用 户 程序 执行 码 的 起 始 位 置 和 大 小 。 到 了 与 文件 系统 相 
关 的 实验 后 ,ucore 会 提供 一 个 简单 的 文件 系统 , 那 时 所 有 的 用 户 程 序 就 都 不 再 用 这 种 方法 
进行 加 载 , 而 可 以 用 大 家 熟悉 的 文件 方式 进行 加 载 。 
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2. 用 户 进 程 的 虚拟 地 址 空间 
在 tools/user. ld 描述 了 用 户 程 序 的 用 户 虚 拟 空间 的 执行 人 口 虚拟 地 址 : 


SECTIONS { 
/* Load programs at this address: "." means the current address * / 
.= 0x800020; 


在 tools/kernel. Id 描述 了 操作 系统 的 内 核 虚拟 空间 的 起 始 入 口 虚拟 地 址 : 


SECTIONS { 
/* Load the kemel at this address: "." means the current address * / 
-= 0xC0100000; 


这 样 ucore 把 用 户 进程 的 虚拟 地 址 空间 分 了 两 块 ,一 块 与 内 核 线程 一 样 ,是 所 有 用 户 进 
程 都 共享 的 内 核 虚拟 地 址 空间 ,映射 到 同样 的 物理 内 存 空间 中 ,这样 在 物理 内 存 中 只 需 放 置 
Fanky einion ynei pie 一 应 对 不 同 的 内 核 程 

序 ; 男 外 一 块 是 用 户 虚拟 地 址 空间 ,虽然 虚拟 地 址 范围 一 样 ,但 映射 到 不 同 且 没 有 交集 的 物 
ed 这 样 当 ucore 把 用 户 进程 的 执行 代码 ( 即 应 用 程序 的 执行 代码 ) 和 数据 ( 即 
应 用 程序 的 全 局 变量 等 ) 放 到 用 户 虚拟 地 址 空间 中 时 ,确保 了 各 个 进程 不 会 “非法 ”访问 到 其 
他 进程 的 物理 内 存 空 间 。 

这 样 ucore 给 一 个 用 户 进 程 具体 设 定 的 虚拟 内 存 空间 (kern/mm/memlayout. h) 如 
图 6-2 所 示 。 


Virtual memory map: Permissions 
kernel/user 


和 


OxFB000000 


RW/--PTSIZE 
VPT---- - -+ 0xFAC00000 
1 1 --/-- 
KERNTOP ~ > + + OxF8000000 
1 
| ! RW/--KMEMSIZE 
KERNBASE -> +- at 00000000 
1 i} 
USERTOP ~ + + 0480000000 
UTEXT -一 一 一 一 -一 一 一 -一 > 0x00800000 
af 
USERBASE, USTAB --------- > 000200000 
Qa > + 一 -一 -一 0x00000000 


图 6-2 用户 进 程 的 虚拟 内 存 空间 


3. 创建 并 执行 用 户 进程 

在 确定 了 用 户 进程 的 执行 代码 和 数据 ,以 及 用 户 进程 的 虚拟 空间 布局 后 ,我 们 可 以 来 创 
建 用 户 进 程 了 。 在 本 实验 中 第 一 个 用 户 进 程 是 由 第 二 个 内 核 线程 initproc 通过 把 hello 应 
用 程序 执行 码 覆 盖 到 initproc 的 用 户 虚 拟 内 存 空间 来 创建 的 ,相关 代码 如 下 : 


//kemel execve- do SYS exec syscall to exec a user program called by user main kemel thread 
static int 
kemel execve (const char* name, unsigned char* binary, size t size) { 
int ret, len= strlen (nawe); 
asm volatile ( 
"int $1;" 
: =a" (ret) 
"i" T SSAI), "0" (SYS ec), "€" paw), "c" (len), "b" (binary), "D" (size) 
: "memory") 7 
retum ret; 


#define KERNEL EXECVE (name, binary, size) ({ 
Cprintf ("kemel execve: pid= $d, nane=\"$ s\".\n", 
current- > pid, name); 
kemel_execve(nare, binary, (size_t) (size)); 


# define KERNEL EXECVE (x) ({ 
extern unsigned char binary cbj user ##x##_ out start (J, 
_binary dbj user ##x##_ out_size[]; 
__KERNEL EXECVE(#x, binary cbj user ##x##_out_start, 
_binary dbj user ##xł#_out size); 
2) 


//init_main- the second kemel thread used to create kswapd main & user main kemel threads 
static int 
init main(voidx arg) { 
# ifdef TEST 
KERNEL EXECVE2 (TEST, TESTSTART, TESTSIZE) ; 
#else 
KERNEL EXECVE (hello); 
#endif 
panic("kernel_execve failed.\n"); 
retum 0; 
} 


对 于 上 述 代码 ,我们 需要 从 后 向 前 按照 函数 / 宏 的 实现 一 个 一 个 来 分 析 。initproc 的 执 

行 主体 是 init_main 函数 ,这 个 函数 在 默认 情况 下 是 执行 宏 KERNEL_EXECVE(Chello) ,而 

这 个 宏 最 终 是 调用 kernel_execve 函数 来 调用 SYS_exec 系统 调用 ,1d 在 链接 hello 应 用 程 
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序 执行 码 时 定义 了 两 全 局 变量 。 

(1) _binary_obj___user_hello_out_start: hello 执行 码 的 起 始 位 置 。 

(2) _binary_obj___user_hello_out_size 中 : hello 执行 码 的 大 小 。 

kernel_execve 把 这 两 个 变量 作为 SYS_exec 系统 调用 的 参数 ,让 ucore 来 创建 此 用 户 
进程 。 当 ucore 收 到 此 系统 调用 后 ,将 依次 调用 如 下 函数 : 


vector128 ectors.S)— ->__alltraps (trapentry.S)- - > trap(trap.c)- -> trap dispatch(trap.c)—- 

一 -> syscall (syscall .c)- - > sys_exec (syscall .c)- -> do execve (proc.c) 

最 终 通过 do_execve 函数 来 完成 用 户 进程 的 创建 工作 。 此 函数 的 主要 工作 流程 如 下 。 

(1) 为 加 载 新 的 执行 码 做 好 用 户 态 内存 空 间 清 空 准备 。 如 果 mm 不 为 NULL, 则 设置 
页 表 为 内 核 空 间 页 表 , 且 进一步 判断 mm 的 引用 计数 减 1 后 是 否 为 0, 如 果 为 0, 则 表明 没有 
进程 再 需要 此 进程 所 占用 的 内 存 空间 ,为 此 将 根据 mm 中 的 记录 ,释放 进程 所 占用 户 空间 
内 存 和 进程 页 表 本 身 所 占 空间 。 最 后 把 当前 进程 的 mm 内 存 管理 指针 为 空 。 由 于 此 处 的 
initproc 是 内 核 线程 ,所 以 mm 为 NULL ,整个 处 理 都 不 会 做 。 

(2) 加 载 应 用 程序 执行 码 到 当前 进程 的 新 创建 的 用 户 态 虚拟 空间 中 。 这 里 涉及 读 ELF 
格式 的 文件 ,申请 内 存 空间 ,建立 用 户 态 虚 存 空间 ,加 载 应 用 程序 执行 码 等 。load_icode M 
数 完成 整个 复杂 的 工作 。 

load_icode 函数 的 主要 工作 就 是 给 用 户 进程 建立 一 个 能 够 让 用 户 进程 正常 运行 的 用 户 
环境 。 此 函数 有 100 多 行 , 完 成 了 如 下 重要 工作 。 

(1) 调用 mm_create 函数 来 申请 进程 的 内 存 管理 数据 结构 mm 所 需 内 存 空间 ,并 对 
mm 进行 初始 化 。 

(2) 调用 setup_pgdir 来 申请 一 个 页 目录 表 所 需 的 一 个 页 大 小 的 内 存 空间 ,并 把 描述 
ucore 内 核 虚 空间 映射 的 内 核 页 表 (boot_pgdir 所 指 ) 的 内 容 复制 到 此 新 目录 表 中 ,最 后 让 
mm 一 之 pgdir 指向 此 页 目录 表 , 这 就 是 进程 新 的 页 目录 表 了 , 且 能 够 正确 映射 内 核 虚 空间 。 

(3) 根据 应 用 程序 执行 码 的 起 始 位 置 来 解析 此 ELF 格式 的 执行 程序 ,并 调用 mm_map 
函数 根据 ELF 格式 的 执行 程序 说 明 的 各 个 段 ( 代 码 段 .数据 段 .BSS 段 等 ) 的 起 始 位 置 和 大 
小 建立 对 应 的 vma 结构 ,并 把 vma 插入 mm 结构 中 ,从 而 表明 了 用 户 进程 的 合法 用 户 态 虚 
拟 地 址 空间 。 

(4) 调用 根据 执行 程序 各 个 段 的 大 小 分 配 物理 内 存 空间 ,并 根据 执行 程序 各 个 段 的 起 
始 位 置 确定 虚拟 地 址 ,并 在 页 表 中 建立 好 物理 地 址 和 虚拟 地 址 的 映射 关系 ,然后 把 执行 程序 
各 个 段 的 内 容 复 制 到 相应 的 内 核 虚 拟 地 址 中 ,至 此 应 用 程序 执行 码 和 数据 已 经 根据 编译 时 
设 定 地 址 放置 到 虚拟 内 存 中 了 。 

(5) 需要 给 用 户 进 程 设 置 用 户 栈 , 为 此 调用 mm_mmap 函数 建立 用 户 栈 的 vma 结构 ， 
明确 用 户 栈 的 位 置 在 用 户 虚 空间 的 顶端 ,大 小 为 256 个 页 , 即 1MB, 并 分 配 一 定数 量 的 物理 
内 存 且 建立 好 栈 的 虚 地 址 二 一 一 二 物理 地 址 映射 关系 。 

(6) 至 此 ,进程 内 的 内 存 管理 vma 和 mm 数据 结构 已 经 建立 完成 ,于 是 把 mm — > 
pedir 赋值 到 cr3 寄存 器 中 , 即 更 新 了 用 户 进程 的 虚拟 内 存 空间 ,此 时 的 initproc 已 经 被 
hello 的 代码 和 数据 覆盖 ,成 为 了 第 一 个 用 户 进程 ,但 此 时 这 个 用 户 进 程 的 执行 现场 还 没 
建 好 。 
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(7) 先 清空 进程 的 中 断 帧 ,再 重新 设置 进程 的 中 断 帧 ,使 得 在 执行 中 断 返 回 指令 iret 
后 ,能 够 让 CPU 转 到 用 户 态 特权 级 ,并 回 到 用 户 态 内 存 空间 ,使 用 用 户 态 的 代码 段 . 数 据 段 
和 堆栈 , 且 能 够 跳 转 到 用 户 进程 的 第 一 条 指令 执行 ,并 确保 在 用 户 态 能 够 响应 中 断 。 

至 此 ,用 户 进 程 的 用 户 环境 已 经 搭建 完毕 。 此 时 initproc 将 按 产生 系统 调用 的 函数 调 
用 路 径 原 路 返回 ,执行 中 断 返 回 指令 iret( 位 于 trapentry. S 的 最 后 一 句 ) 后 ,将 切换 到 用 户 
进程 hello 的 第 一 条 语句 位 置 _start 处 (位 于 user/libs/initcode. S 的 第 三 句 ) 开 始 执行 。 


6.3.3 进程 退出 和 等 待 进程 


当 进程 执行 完 它 的 工作 后 ,就 需要 执行 退出 操作 ,释放 进程 占用 的 资源 。ucore 分 两 步 
来 完成 这 项 工作 ,首先 由 进程 本 身 完 成 大 部 分 资源 的 占用 内 存 回收 工作 ,然后 由 此 进程 的 父 
进程 完成 剩余 资源 占用 内 存 的 回收 工作 。 为 何不 让 进程 本 身 完 成 所 有 的 资源 回收 工作 呢 ? 
这 是 因为 进程 要 执行 回收 操作 ,就 表明 此 进程 还 存在 ,还 在 执行 指令 ,这 就 需要 内 核 栈 的 空 
间 不 能 释放 , 且 表 示 进 程 存在 的 进程 控制 块 不 能 释放 。 所 以 需要 父 进程 来 帮忙 释放 子 进 程 
无 法 完成 的 这 两 个 资源 回收 工作 。 

为 此 在 用 户 态 的 函数 库 中 提供 了 exit 函数 ,此 函数 最 终 访问 sys_exit 系统 调用 接口 让 
操作 系统 来 帮助 当前 进程 执行 退出 过 程 中 的 部 分 资源 回收 。 下 面 来 看 看 ucore 是 如 何 做 进 
程 退出 工作 的 。 

首先 ,exit 函数 会 把 一 个 退出 码 error_code 传递 给 ucore, ucore Wit tt AK PBK do_ 
exit 来 完成 对 当前 进程 的 退出 处 理 , 主 要 工作 简单 地 说 就 是 回收 当前 进程 所 占 的 大 部 分 内 
存 资源 ,并 通知 父 进程 完成 最 后 的 回收 工作 ,具体 流程 如 下 。 

(1) 如 果 current—>mm ! = NULL ,表示 是 用 户 进 程 , 则 开始 回收 此 用 户 进 程 所 占 
用 的 用 户 态 虚拟 内 存 空间 。 

执行 lcr3(boot_cr3) ,切换 到 内 核 态 的 页 表 上 ,这 样 当前 用 户 进 程 目前 只 能 在 内 核 
虚拟 地 址 空间 执行 了 ,这 是 为 了 确保 后 续 释 放 用 户 态 内 存 和 进程 页 表 的 工作 能 够 正常 
执行 。 

© 如 果 当 前 进程 控制 块 的 成 员 变 量 mm 的 成 员 变 量 mm_count W 1 后 为 0( 表 明 这 个 
mm 没有 再 被 其 他 进程 共享 ,可 以 彻底 释放 进程 所 占 的 用 户 虚拟 空间 了 ), 则 开始 回收 用 户 
进程 所 占 的 内 存 资源 。 

a. 调用 exit_mmap 函数 释放 current— >mm—>vma 链表 中 每 个 vma 描述 的 进程 合 
法 空间 中 实际 分 配 的 内 存 , 然 后 把 对 应 的 页 表 项 内 容 清空 ,最 后 还 把 页 表 所 占用 的 空间 释放 
并 把 对 应 的 页 目录 表 项 清空 。 

b. 调用 put_pgdir 函数 释放 当前 进程 的 页 目录 所 占 的 内 存 。 

c. 调用 mm_destroy 函数 释放 mm 中 的 vma 所 占 内 存 ,最 后 释放 mm 所 占 内 存 。 

© 此 时 设置 current 一 之 mm 为 NULL ,表示 与 当前 进程 相关 的 用 户 虚 拟 内 存 空间 和 对 
应 的 内 存 管理 成 员 变量 所 占 的 内 核 虚 拟 内 存 空间 已 经 回收 完毕 。 

(2) 这 时 ,设置 当前 进程 的 执行 状态 current —>state=PROC_ZOMBIE 和 当前 进程 的 
退出 码 current 一 二 exit_code 王 error_code。 此 时 当前 进程 已 经 不 能 被 调度 了 ,需要 此 进程 
的 父 进程 来 做 最 后 的 回收 工作 ( 即 回收 描述 此 进程 的 内 核 栈 和 进程 控制 块 ) 。 

(3) 如 果 当 前 进程 的 父 进程 current—>parent 处 于 等 待 子 进程 状态 : 
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current- > parent—>wait_state==WI_CHILD 


则 唤醒 父 进程 ( 即 执行 wakup_proc(current—>parent)) ,让 父 进程 帮助 自己 完成 最 后 的 资 
源 回收 。 

(4) 如 果 当 前 进程 还 有 子 进程 , 则 需要 把 这 些 子 进 程 的 父 进 程 指针 设置 为 内 核 线程 
initproc, 且 各 个 子 进程 指针 需要 插 和 人 到 initproc 的 子 进程 链表 中 。 如 果 某 个 子 进程 的 执行 
状态 是 PROC_ZOMBIE, 则 需要 唤醒 initproc 来 完成 对 此 子 进程 的 最 后 回收 工作 。 

(5) HÍT scheduleQ ph MK. HE FE RAY HERE DUT o 

那么 父 进程 如 何 完成 对 子 进程 的 最 后 回收 工作 呢 ? 这 要 求 父 进程 要 执行 wait 用 户 函 
数 或 wait_pid 用 户 函 数 ,这 两 个 函数 的 区 别 是 , wait 函数 等 待 任意 子 进程 的 结束 通知 ,而 
wait_pid 函数 等 待 进程 id 号 为 pid 的 子 进程 结束 通知 。 这 两 个 函数 最 终 访问 sys_wait 系 
统 调用 接口 让 ucore 来 完成 对 子 进程 的 最 后 回收 工作 , 即 回收 子 进程 的 内 核 栈 和 进程 控制 
块 所 占 内 存 空间 ,具体 流程 如 下 。 

(1) 如 果 pid! =0, 表 示 只 找 一 个 进程 id 号 为 pid 的 退出 状态 的 子 进程 ,否则 找 任意 一 
个 处 于 退出 状态 的 子 进程 。 

(2) 如 果 此 子 进程 的 执行 状态 不 为 PROC_ZOMBIE, 表 明 此 子 进程 还 没有 退出 , 则 当 
前 进程 只 好 设置 自己 的 执行 状态 为 PROC_SLEEPING ,睡眠 原因 为 WT_CHILD( 即 等 待 子 
进程 退出 ) ,调用 schedule() 函 数 选择 新 的 进程 执行 ,自己 睡眠 等 待 , 如 果 被 唤醒 , 则 重复 跳 
回 步 又 (1) 处 执行 。 

G) 如 果 此 子 进程 的 执行 状态 为 PROC_ZOMBIE ,表明 此 子 进程 处 于 退出 状态 ,需要 
当前 进程 ( 即 子 进程 的 父 进程 ) 完 成 对 子 进程 的 最 终 回收 工作 , 即 首 先 把 子 进程 控制 块 从 两 
个 进程 队列 proc_list 和 hash_list 中 删除 ,并 释放 子 进 程 的 内 核 堆栈 和 进程 控制 块 。 自 此 ， 
子 进 程 才 彻底 地 结束 了 它 的 执行 过 程 , 释 放 了 它 所 占用 的 所 有 资源 。 


6.3.4 系统 调用 实现 


系统 调用 的 英文 名 字 是 System Call。 操 作 系统 为 什么 需要 实现 系统 调用 呢 ? 其 实 这 
是 实现 了 用 户 进程 后 ,自然 引申 出 来 需要 实现 的 操作 系统 功能 。 用 户 进 程 只 能 在 操作 系统 
给 它 圈定 好 的 “用 户 环境 ”中 执行 ,但 “用 户 环境 ”限制 了 用 户 进程 能 够 执行 的 指令 , 即 用 户 进 
程 只 能 执行 一 般 的 指令 ,无 法 执行 特权 指令 。 如 果 用 户 进程 想 执行 一 些 需 要 特权 指令 的 任 
务 , 比 如 通过 网 卡 发 网 络 包 等 ,只 能 让 操作 系统 来 代劳 了 。 于 是 就 需要 一 种 机 制 来 确保 用 户 
进程 不 能 执行 特权 指令 ,但 能 够 请 操作 系统 “帮忙 ”完成 需要 特权 指令 的 任务 ,这 种 机 制 就 是 
系统 调用 。 

采用 系统 调用 机 制 为 用 户 进程 提供 一 个 获得 操作 系统 服务 的 统一 接口 层 , 这 样 一 来 可 
简化 用 户 进程 的 实现 ,把 一 些 共 性 的 、 烦 琐 的 ,与 硬件 相关 ,与 特权 指令 相关 的 任务 放 到 操作 
系统 层 来 实现 ,但 提供 一 个 简洁 的 接口 给 用 户 进程 调用 ;二 来 这 层 接 口 事先 可 规定 好 , 且 严 
格 检查 用 户 进程 传递 进来 的 参数 和 操作 系统 要 返回 的 数据 ,使 得 让 操作 系统 给 用 户 进 程 服 
务 的 同时 ,保护 操作 系统 不 会 被 用 户 进程 破坏 。 

从 硬件 层面 上 看 ,需要 硬件 能 够 支持 在 用 户 态 的 用 户 进程 通过 某 种 机 制 切换 到 内 核 态 。 
实验 1 讲述 中 断 硬件 支持 和 软件 处 理 过 程 其 实 就 可 以 用 来 完成 系统 调用 所 需 的 软 硬 件 支 
持 。 下 面 我 们 来 看 看 如 何在 ucore 中 实现 系统 调用 。 
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1. 初始 化 系统 调用 对 应 的 中 断 描述 符 

在 ucore 初始 化 函数 kern_init 中 调用 了 idt_init 函数 来 初始 化 中 断 描述 符 表 ,并 设置 
一 个 特定 中 断 号 的 中 断 门 ,专门 用 于 用 户 进程 访问 系统 调用 。 此 事由 ide_init 函数 完成 。 

void 

idt init (void) { 

extem uintptr t vectors[]; 

int i; 

for (i= 0; i< sizeof (idt) /sizeof (struct gatedesc); i++) { 
SEICATE (ict [i], 1, GD RIFEXT, _vectors[i], DPL KERNEL); 

} 

SETCATE (idt[T_SYSCALL], 1, GD KIEXT, __vectors[T_SYSCALL], DPL USFR); 

Lidt (gidt pd); 

} 

在 上 述 代码 中 ,可 以 看 到 在 执行 加 载 中 断 描述 符 表 lidt 指令 前 ,专门 设置 了 一 个 特殊 的 
中 断 描述 符 idtLT_SYSCALL], 它 的 特权 级 设置 为 DPL_USER, 中 断 向 量 处 理 地 址 在 __ 
vectors[T_SYSCALL ] 处 。 这 样 建 好 这 个 中 断 描述 符 后 ,一 旦 用 户 进 程 执 行 “INT T_ 
SYSCALL” 后 ,由 于 此 中 断 允 许 用 户 态 进程 产生 (注意 它 的 特权 级 设置 为 DPL_USER) ,所 
以 CPU 就 会 从 用 户 态 切换 到 内 核 态 ,保存 相关 寄存 器 ,并 跳 转 到 __vectors[T_SYSCALL] 
处 开始 执行 ,形成 如 下 执行 路 径 : 

Vectorl28 (vectors.S)- ->_ alltraps (trapentry.S)- - > trap (trap.c)- -> trap_dispatch (trap.c)- - - - > 

syscall (syscall .c)- 

在 syscall 中 ,根据 系统 调用 号 来 完成 不 同 的 系统 调用 服务 。 

2. 建立 系统 调用 的 用 户 库 准备 

在 操作 系统 中 初始 化 好 系统 调用 相关 的 中 断 描述 符 、 中 断 处 理 起 始 地 址 等 之 后 ,还 需 在 
用 户 态 的 应 用 程序 中 初始 化 好 相关 工作 ,简化 应 用 程序 访问 系统 调用 的 复杂 性 。 为 此 在 用 
户 态 建立 了 一 个 中 间 层 , 即 简化 的 libe 实现 ,在 user/libs/ulib. [ch] 和 user/libs/syscall. 
[Leh] 中 完成 了 对 访问 系统 调用 的 封装 。 用 户 态 最 终 的 访问 系统 调用 函数 是 syscall, HHL 
WTF: 

syscall (int mm,- ) { 

va_list ap; 

va_start (ap, num) ; 

uint32 t a[MAX ARGS]; 

{ie irets 

for (i= 0;i< MAX_ARGS;i++) { 
a[i]=va_arg(ap, uint32 t); 

} 

va end(ap); 

asm volatile( 
"intep" 
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: =a" (ret) 


: "i" (T SYSCAII), 


"a" (mm), 
"a" ero)， 
"œ alll), 
"o" er2])， 
"D" er3])， 
"s" ar) 


"oc", "memory") ; 


retum ret; 


} 


从 中 可 以 看 出 ,应 用 程序 调用 的 exit, fork, wait, getpid 等 库 函 数 最 终 都 会 调用 syscall 
函数 ,只 是 调用 的 参数 不 同 而 已 ,如 果 看 最 终 的 汇编 代码 会 更 清楚 : 


8b 55 d4 
8b 4d d8 
8 Sd de 
8 7d 20 
8b 75 e4 
& 45 08 
cd 80 

89 45 f0 


- 0x2c (% ebp) ,% edx 
- 028 (% ep) ,$ ecx 
- 024 (% ep) ,% ebx 
- 020 (% kp) ,% edi 
- Oxlc(% ebp) ,Besi 
0x8 (% ep) ,% eax 

$ 0x80 

% eax,- 0x10 (8 ebp) 


gk 28a 899 


可 以 看 到 其 实 是 把 系统 调用 号 放 到 EAX, 其 他 5 个 参数 aL0]~aL4] 分 别 保存 到 EDX, 
ECX、EBX、EDI、ESI 寄存 器 中 ,最 多 用 6 个 寄存 器 来 传递 系统 调用 的 参数 , 且 系 统 调用 的 返 
回 结果 是 EAX。 例 如 ,对 于 getpid 库 函 数 而 言 ,系统 调用 号 (SYS_getpid 二 18) 是 保存 在 
EAX 中 ,返回 值 (调用 此 库 函 数 的 当前 进程 号 pid) 也 在 EAX 中 。 

3. 与 用 户 进程 相关 的 系统 调用 

在 本 实验 中 ,与 进程 相关 的 各 个 系统 调用 属性 如 表 6-1 所 示 。 


表 6-1 与 进程 相关 的 各 个 系统 调用 属性 


系统 调用 名 G x 具体 完成 服务 的 函数 
SYS_exit process exit do_exit 

SYS_fork create child process. dup mm do_fork— — > wakeup_proc 
SYS_wait wait child process do_wait 

SYS_exec after fork, process execute a new program | load a program and refresh the mm 
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BR 
系统 调用 名 含义 具体 完成 服务 的 函数 


. . proc— > need_ sched = 1, then scheduler will 
SYS_yield process flag itself need resecheduling : 
rescheule this process 


do_kill——>proc—>flags |= PF_EXITING, 
——>wakeup_proe— — >do_wait— — >do_exit 


SYS_kill kill process 


SYS_getpid | get the process’s pid 


通过 这 些 系统 调用 ,可 方便 地 完成 从 进程 /线程 创建 到 退出 的 整个 运行 过 程 。 

4. 系统 调用 的 执行 过 程 

与 用 户 态 的 函数 库 调用 执行 过 程 相 比 ,系统 调用 执行 过 程 有 四 点 主要 的 不 同 。 

(1) 不 是 通过 CALL 指令 而 是 通过 INT 指令 发 起 调用 。 

(2) 不 是 通过 RET 指令 ,而 是 通过 IRET 指令 完成 调用 返回 。 

(3) 当 到 达 内 核 态 后 ,操作 系统 需要 严格 检查 系统 调用 传递 的 参数 ,确保 不 破坏 整个 系 
统 的 安全 性 。 

(4) 执行 系统 调用 可 导致 进程 等 待 某 事件 发 生 , 从 而 可 引起 进程 切换 。 

下 面 我 们 以 getpid 系统 调用 的 执行 过 程 大 致 看 看 操作 系统 是 如 何 完 成 整个 执行 过 程 
的 。 当 用 户 进程 调用 getpid 函数 ,最 终 执行 到 *INT T_SYSCALL” 指 令 后 ,CPU 根据 操作 
系统 建立 的 系统 调用 中 断 描 述 符 , 转 和 人 内 核 态 ,并 跳 转 到 vector128 处 (kern/trap/vectors. S), 
开始 操作 系统 的 系统 调用 执行 过 程 , 函 数 调用 和 返回 操作 的 关系 如 下 所 示 : 


vector128(vectors.S)-->__alltraps (trapentry.S)- - > trap (trap.c)- - > trap _dispatch(trap.c)- - 

- -> syscall (syscall .c)- -> sys_tpid(sysæall.c)-- >=- ->__trapret (trapentry.S) 

在 执行 trap 函数 前 ,软件 还 需 进 一 步 保存 执行 系统 调用 前 的 执行 现场 , 即 把 与 用 户 进 
程 继 续 执行 所 需 的 相关 寄存 器 等 当前 内 容 保 存 到 当前 进程 的 中 断 帧 trapframe 中 (在 创建 
进程 时 ,把 进程 的 trapframe 放 在 给 进程 的 内 核 栈 分 配 的 空间 的 顶部)。 软 件 做 的 工作 在 
vector128 和 __alltraps 的 起 始 部 分 : 


vectors.S::vectorl28 起 始 处 : 
pushl $0 
pushl $ 128 


trapentry.S:: ”alltraps 起 始 处 : 
pushl $ds 
pushl $es 
pushal 


自 此 ,用 于 保存 用 户 态 的 用 户 进 程 执行 现场 的 trapframe 的 内 容 填写 完毕 ,操作 系统 可 
开始 完成 具体 的 系统 调用 服务 。 在 sys_getpid 函数 中 ,简单 地 把 当前 进程 的 pid 成 员 变 量 
作为 函数 返回 值 就 是 一 个 具体 的 系统 调用 服务 。 完 成 服务 后 ,操作 系统 按 调 用 关系 的 路 径 
原 路 返回 到 __alltraps 中 。 然 后 操作 系统 开始 根据 当前 进程 的 中 断 帧 内 容 做 恢复 执行 现场 
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操作 。 其 实 就 是 把 trapframe 的 一 部 分 内 容 保存 到 寄存 器 内 容 。 人 恢复 寄存 器 内 容 结束 后 ， 
调整 内 核 堆栈 指针 到 中 断 帧 的 tf_eip 处 ,这 是 内 核 栈 的 结构 如 下 : 


/* below here defined by x86 hardware* / 
uintptr t tf eip; 
uintlé t tf cs; 
uintl6 t tf padding3; 
uint32 t tf eflags; 
/* below here only when crossing rings* / 
uintptr t tf esp; 
uintl6 t tf ss; 
uintl6 t tf padding; 
这 时 执行 IRET 指令 后 ,CPU 根据 内 核 栈 的 情况 恢复 到 用 户 态 , 并 把 EIP 指向 tf_eip 
的 值 , 即 “INT T_SYSCALL” 后 的 那 条 指令 。 这 样 整 个 系统 调用 就 执行 完毕 了 。 
至 此 ,实验 5 中 的 主要 工作 描述 完毕 。 


6.4 实验 报告 要 求 


从 网 站 上 下 载 lab5. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab5 ,完成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab5- 
handin. tar. gz。 最 后 请 一 定 提 前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab5 的 注释 ,代码 中 所 有 需要 完成 的 地 方 (Challenge 除外 ?都 有 lab5 Al“ Your 
Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 Your Code” 替 换 为 自己 的 学 号 ,并 且 将 
所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 


辅助 材料 A “原理 ”用 户 进 程 的 特征 


1. 从 内 核 线程 到 用 户 进 程 

在 实验 4 中 设计 实现 了 进程 控制 块 ,并 实现 了 内 核 线程 的 创建 和 简单 的 调度 执行 。 但 
实验 4 中 没有 在 用 户 态 执行 用 户 进程 的 管理 机 制 , 即 无 法 体现 用 户 进 程 的 地 址 空间 ,以 及 用 
户 进程 间 地 址 空间 隔离 的 保护 机 制 ,不 支持 进程 执行 过 程 的 用 户 态 和 核心 态 之 间 的 切换 , 且 
没有 用 户 进程 的 完整 状态 变化 的 生命 周期 。 其 实 没有 实现 的 原因 是 内 核 线程 不 需要 这 些 功 
能 。 那 内 核 线 程 相对 于 用 户 态 线程 有 何 特点 呢 ? 

其 实 我 们 已 经 在 实验 4 中 看 到 了 内 核 线程 ,内 核 线程 的 管理 实现 相对 简单 ,其 特点 是 直 
接 使 用 操作 系统 (比如 ucore) 在 初始 化 中 建立 的 内 核 虚 拟 内 存 地 址 空间 ,不同 的 内 核 线程 之 
间 可 以 通过 调度 器 实现 线程 间 的 切换 ,达到 分 时 使 用 CPU 的 目的 。 由 于 内 核 虚拟 内 存 空 
间 是 一 一 映射 计算 机 系统 的 物理 空间 的 ,这 使 得 可 用 空间 的 大 小 不 会 超过 物理 空间 大 小 ,所 
以 操作 系统 程序 员 编写 内 核 线程 时 ,需要 考虑 有 限 的 地 址 空间 ,需要 保证 各 个 内 核 线程 在 执 
行 过 程 中 不 会 破坏 操作 系统 的 正常 运行 。 这 样 在 实现 内 核 线程 管理 时 ,不 必 考 虑 涉及 与 进程 
相关 的 虚拟 内 存 管理 中 的 缺 页 处 理 、 按 需 分 页 、 写 时 复制 .页 换 入 换 出 等 功能 。 如 果 在 内 核 线 
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程 执行 过 程 中 出 现 了 访 存 错误 异常 或 内 存 不 够 的 情况 ,就 认为 操作 系统 出 现 错误 了 ,操作 系统 
将 直接 宕 机 。 在 ucore 中 ,就 是 调用 panic 函数 ,进入 内 核 调试 监控 器 kernel_debug_monitor, 

内 核 线程 管理 的 思想 相对 简单 ,但 编写 内 核 线 程 对 程序 员 的 要 求 很 高 。 从 理论 上 讲 ( 理 
想 情 况 ) ,如 果 程 序 员 都 是 能 够 编写 操作 系统 级 别 的 “高 手 ”, 能 够 勤俭 和 高 效 地 使 用 计算 机 
系统 中 的 资源 ,上 且 这 些 “ 高 手 ” 都 为 他 人 着 想 ,. 具 有 奉献 精神 ,在 别 的 应 用 需要 计算 机 资源 的 
时 候 , 能 够 从 大 局 出 发 ,从 整个 系统 的 执行 效率 出 发 ,让 出 自己 占用 的 资源 , 那 这 些 “ 高 手 ” 编 
写 出 来 的 程序 直接 作为 内 核 线 程 运行 即 可 ,也 就 没有 用 户 进程 存在 的 必要 了 。 

现实 与 理论 的 差距 是 巨大 的 ,能 编写 操作 系统 的 程序 员 是 极 少数 的 ,与 当前 的 应 用 程序 
员 相 比 , 估 计 大 约 差 了 3 一 4 个 数量 级 。 如 果 还 要 求 编写 操作 系统 的 程序 员 考 虑 其 他 未 知 程 
序 员 的 未 知 需 求 , 那 这 样 的 程序 员 估计 可 以 成 为 编程 界 的 上帝? 了 。 

从 应 用 程序 编写 和 运行 的 角度 看 ,既然 程序 员 都 不 是 "上帝 ”, 操 作 系 统 程序 员 就 需要 给 
应 用 程序 员 编 写 的 程序 提供 一 个 既 “ 宽 松 ” 又 “严格 ”的 执行 环境 ,让 对 内 存 大 小 和 CPU 使 
用 时 间 等 资源 的 限制 没有 仔细 考虑 的 应 用 程序 都 能 在 操作 系统 中 正常 运行 , 且 即 使 程序 太 
可 靠 ,也 只 能 破坏 自己 ,而 不 能 破坏 其 他 运行 程序 和 整个 系统 。“ 严 格 ” 就 是 安全 性 保证 , 即 
应 用 程序 执行 不 会 破坏 在 内 存 中 存在 的 其 他 应 用 程序 和 操作 系统 的 内 存 空间 等 独占 的 资 
源 ;“ 宽 松 ” 就 算是 方便 性 支持 , 即 提供 给 应 用 程序 尽量 丰富 的 服务 功能 和 一 个 远大 于 物理 内 
存 空间 的 虚拟 地 址 空间 ,使 得 应 用 程序 在 执行 过 程 中 不 必 考 虑 很 多 烦琐 的 细节 (比如 如 何 初 
始 化 PCI 总 线 和 外 设 等 ,如 果 管 理 物 理 内 存 等 ) 。 

2. 让 用 户 进程 正常 运行 的 用 户 环境 

在 操作 系统 原理 的 介绍 中 ,一 般 提 到 进程 的 概念 其 实 主要 是 指 用 户 进程 。 从 操作 系统 
的 设计 和 实现 的 角度 看 ,用 户 进程 是 指 一 个 应 用 程序 在 操作 系统 提供 的 一 个 用 户 环境 中 的 
一 次 执行 过 程 。 这 里 的 重点 是 用 户 环境 。 用 户 环 境 有 什么 功能 ? 用户 环境 指 的 是 什么 ? 

从 功能 上 看 ,操作 系统 提供 的 这 个 用 户 环 境 有 两 方面 的 特点 。 一 方面 与 存储 空间 相关 ， 
即 限制 用 户 进程 可 以 访问 的 物理 地 址 空间 , 且 让 各 个 用 户 进程 之 间 的 物理 内 存 空间 访问 不 
HEE ,这 样 可 以 保证 不 同 用 户 进 程 之 间 不 能 相互 破坏 各 自 的 内 存 空间 ,利用 虚拟 内 存 的 功能 
(页 换 入 和 换 出 )。 给 用 户 进程 提供 了 远大 于 实际 物理 内 存 空 间 的 虚拟 内 存 空间 。 

另 一 方面 与 执行 指令 相关 , 即 限制 用 户 进程 可 执行 的 指令 ,不 能 让 用 户 进程 执行 特权 指 
令 ( 比 如 修改 页 表 起 始 地 址 ) ,从 而 保证 用 户 进程 无 法 破坏 系统 。 但 如 果 不 能 执行 特权 指令 ， 
则 很 多 功能 (比如 访问 磁盘 等 ) 无 法 实现 ,所 以 需要 提供 某 种 机 制 , 让 操作 系统 完成 需要 特权 
指令 才能 做 的 各 种 服务 功能 ,给 用 户 进程 一 个 “服务 窗口 ”, 用 户 进程 可 以 通过 这 个 “窗口 ”向 
操作 系统 提出 服务 请 求 ,由 操作 系统 来 帮助 用 户 进 程 完 成 需要 特权 指令 才能 做 的 各 种 服务 。 
另外 ,还 要 有 一 个 “中 断 窗口 ”, 让 用 户 进程 不 主动 放弃 使 用 CPU 时 ,操作 系统 能 够 通过 这 
个 “中 断 窗口 ?强制 让 用 户 进程 放弃 使 用 CPU ,从 而 让 其 他 用 户 进程 有 机 会 执行 。 

基于 功能 分 析 ,我 们 就 可 以 把 这 个 用 户 环境 定义 为 如 下 组 成 部 分 。 

(1) 建立 用 户 虚拟 空间 的 页 表 和 支持 页 换 入 和 换 出 机 制 的 用 户 内 存 访 存 错误 异常 服务 
例 程 : 提供 地 址 隔离 和 超过 物理 空间 大 小 的 虚 存 空间 。 

(2) 应 用 程序 执行 的 用 户 态 CPU 特权 级 : 在 用 户 态 CPU 特权 级 ,应 用 程序 只 能 执行 
一 般 指令 ,如果 是 特权 指令 ,结果 不 是 无 效 就 是 产生 “执行 非法 指令 ”异常 。 

(3) 系统 调用 机 制 : 给 用 户 进 程 提 供 “ 服 务 窗口 ”。 
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(4) 中 断 响应 机 制 : 给 用 户 进程 设置 “中 断 窗口 ” ,这样 产生 中 断后 ,当前 执行 的 用 户 进 
程 将 被 强制 打 断 ,CPU 控制 权 将 被 操作 系统 的 中 断 服 务 例 程 使 用 。 

3. 用 户 态 进程 的 执行 过 程 分 析 

在 这 个 环境 下 运行 的 进程 就 是 用 户 进程 。 如 果 用 户 进程 由 于 某 种 原因 进入 内 核 态 后 ， 
那么 在 内 核 态 执行 的 是 什么 呢 ? 还 是 用 户 进 程 吗 ? 首先 分 析 一 下 用 户 进程 怎样 会 进入 内 核 
态 呢 ? 回顾 一 下 labl ,就 可 以 知道 当 产生 外 设 中 断 `.CPU 执行 异常 (比如 访 存 错 误 )、 陷 入 
(系统 调用 ) ,用 户 进 程 就 会 切换 到 内 核 中 的 操作 系统 中 。 表 面 上 看 ,到 内 核 态 后 ,操作 系统 
取得 了 CPU 的 控制 权 , 所 以 现在 执行 的 应 该 是 操作 系统 代码 ,由 于 此 时 CPU 处 于 核心 态 
特权 级 ,所 以 操作 系统 的 执行 过 程 就 就 应 该 是 内 核 进 程 了 。 这 样 理 解 忽 略 了 操作 系统 的 具 
体 实现 。 如 果 考 虑 操作 系统 的 具体 实现 ,应 该 如 何 来 理解 进程 呢 ? 

从 进程 控制 块 的 角度 看 ,如 果 执 行 了 进程 执行 现场 (上 下 文 ) 的 切换 ,就 认为 到 另外 一 个 
进程 执行 了 ,并 且 进 程 的 分 界 点 设 定 在 执行 进程 切换 的 前 后 。 到 底 切 换 了 什么 呢 ? HEA 
是 切换 了 进程 的 页 表 和 相关 硬件 寄存 器 ,这 些 信 息 都 保存 在 进程 控制 块 中 的 相关 域 中 。 所 
以 ,我 们 可 以 把 执行 应 用 程序 的 代码 一 直到 执行 操作 系统 中 的 进程 切换 处 为 止 都 认为 是 一 
个 应 用 程序 的 执行 过 程 ( 其 中 有 操作 系统 的 部 分 代码 执行 过 程 ) 即 进程 。 因 为 在 这 个 过 程 
中 ,没有 更 换 到 另外 一 个 进程 控制 块 的 进程 的 页 表 和 相关 硬件 寄存 器 。 

从 指令 执行 的 角度 看 ,如 果 再 仔细 分 析 一 下 操作 系统 这 个 软件 的 特点 并 细 化 一 下 进入 
内 核 的 原因 ,就 可 以 看 出 进一步 进行 划分 。 操 作 系 统 的 主要 功能 是 给 上 层 应 用 提供 服务 , 管 
理 整 个 计算 机 系统 中 的 资源 。 所 以 操作 系统 虽然 是 一 个 软件 ,但 其 实 是 一 个 基于 事件 的 软 
件 , 这 里 操作 系统 需要 响应 的 事件 包括 三 类 : 外 设 中 断 .CPU 执行 异常 (比如 访 存 错误 ) 、 隐 
入 (系统 调用 ) 。 如 果 用 户 进程 通过 系统 调用 要 求 操作 系统 提供 服务 ,那么 从 用 户 进程 的 角 
ER ,操作 系统 就 是 一 个 特殊 的 软件 库 ( 比 如 相对 于 用 户 态 的 libe 库 ,操作 系统 可 看 做 内 核 
态 的 libe PE) ,完成 用 户 进程 的 需求 ,从 执行 逻辑 上 看 ,是 用 户 进程 “主观 ”执行 的 一 部 分 , 即 
用 户 进程 “知道 "操作 系统 要 做 的 事情 。 那 么 在 这 种 情况 下 ,进程 的 代码 空间 包括 用 户 态 的 
执行 程序 和 内 核 态 响应 用 户 进 程 通 过 系统 调用 而 在 核心 特权 态 执行 服务 请 求 的 操作 系统 代 
码 , 这 种 情况 下 的 进程 的 内 存 虚拟 空间 也 包括 两 部 分 : 用 户 态 的 虚 地 址 空间 和 核心 态 的 虚 
地 址 空间 。 但 如 果 此 时 发 生 的 事件 是 外 设 中 断 和 CPU 执行 异常 ,虽然 CPU 控制 权 也 转 入 
到 操作 系统 中 的 中 断 服 务 例 程 ,但 这 些 内 核 执行 代码 执行 过 程 是 用 户 进程 “不 知道 ”的 ,是 另 
外 一 段 执行 逻辑 。 那 么 在 这 种 情况 下 ,实际 上 是 执行 了 两 段 目 标 不 同 的 执行 程序 ,一 个 是 代 
表 应 用 程序 的 用 户 进 程 , 一 个 是 代表 中 断 服务 例 程 处 理 外 设 中 断 和 CPU 执行 异常 的 内 核 
线程 。 这 个 用 户 进 程 和 内 核 线程 在 产生 中 断 或 异常 的 时 候 ,CPU 硬件 就 完成 了 它们 之 间 的 
指令 流 切 换 。 

4. 用 户 进程 的 运行 状态 分 析 

用 户 进 程 在 其 执行 过 程 中 会 存在 很 多 种 不 同 的 执行 状态 ,根据 操作 系统 的 原理 ,一 个 用 
户 进 程 一般 的 运行 状态 有 五 种 : 创建 Cnew) 态 .就 绪 (Cready) 态 .运行 (running) 态 、 等 待 
(blocked) 态 .退出 (exit) 态 。 各 个 状态 之 间 会 由 于 发 生 了 某 事件 而 进行 状态 转换 。 

但 在 用 户 进 程 的 执行 过 程 中 ,具体 在 哪个 时 间 段 处 于 上 述 状 态 呢 ? 上 述 状 态 是 如 何 转 
变 的 呢 ? 首先 ,我们 看 创建 态 ,操作 系统 完成 进程 的 创建 工作 ,而 体现 进程 存在 的 就 是 进程 
控制 块 ,所 以 一 旦 操作 系统 创建 了 进程 控制 块 , 则 可 以 认为 此 时 进程 就 已 经 存在 了 ,但 由 于 
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进程 能 够 运行 的 各 种 资源 还 没准 备 好 ,所 以 此 时 的 进程 处 于 创建 态 。 创 建 了 进程 控制 块 后 ， 
进程 并 不 能 执行 ,还 需 准 备 好 各 种 资源 ,如 果 把 进程 执行 所 需要 的 虚拟 内 存 空 间 、 执 行 代 码 、 
要 处 理 的 数据 等 都 准备 好 了 , 则 此 时 进程 可 以 执行 ,但 还 没有 被 操作 系统 调度 ,需要 等 待 操 
作 系 统 选择 这 个 进程 执行 ,于 是 把 这 个 做 好 “执行 准备 ”的 进程 放 入 到 一 个 队列 中 ,并 可 以 认 
为 此 时 进程 处 于 就 绪 态 。 当 操作 系统 的 调度 器 从 就 绪 进 程 队列 中 选择 了 一 个 就 绪 进 程 后 ， 
通过 执行 进程 切换 ,就 让 这 个 被 选 上 的 就 绪 进程 执行 ,此 时 进程 就 处 于 运行 态 。 到 了 运行 态 
后 ,会 出 现 三 种 事件 。 如 果 进 程 需要 等 待 某 个 事件 (比如 主动 睡眠 10s, 或 进程 访问 某 个 内 
存 空 间 , 但 此 内 存 空 间 被 换 出 到 硬盘 swap 分 区 中 ,进程 不 得 不 等 待 操作 系统 把 缓慢 的 硬盘 
上 的 数据 重新 读 回 到 内 存 中 ) ,那么 操作 系统 会 把 CPU 给 其 他 进程 执行 ,并 把 进程 状态 从 
运行 态 转换 为 等 待 态 。 如 果 用 户 进程 的 应 用 程序 逻辑 流程 执行 结束 了 ,那么 操作 系统 会 把 
CPU 给 其 他 进程 执行 ,并 把 进程 状态 从 运行 态 转换 为 退出 态 , 并 准备 回收 用 户 进程 占用 的 
各 种 资源 , 当 把 表示 整个 进程 存在 的 进程 控制 块 也 回收 了 ,这 进程 就 不 存在 了 。 在 这 整个 回 
收 过 程 中 ,进程 都 处 于 退出 态 。 考 虑 到 在 内 存 中 存在 多 个 处 于 就 绪 态 的 用 户 进程 ,但 只 有 一 
个 CPU, 所 以 为 了 公平 起 见 , 每 个 就 绪 态 进程 都 只 有 有 限 的 时 间 片 , 当 一 个 运行 态 的 进程 用 
完 它 的 时 间 片 后 ,操作 系统 会 剥夺 此 进程 的 CPU 使 用 权 , 并 把 此 进程 状态 从 运行 态 转换 为 
就 绪 态 ,最 后 把 CPU 给 其 他 进程 执行 。 如 果 某 个 处 于 等 待 态 的 进程 所 等 待 的 事件 产生 了 
(比如 睡眠 时 间 到 ,或 需要 访问 的 数据 已 经 从 硬盘 换 入 到 内 存 中 ) , 则 操作 系统 会 通过 把 等 待 
此 事件 的 进程 状态 从 等 待 态 转 到 就 绪 态 。 这 样 进程 的 整个 状态 转换 形成 了 一 个 有 限 状 态 自 
动机 。 
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第 7 章 实验 6: 调度 器 


7.1 实验 目的 


(1) 理解 操作 系统 的 调度 管理 机 制 。 
(2) 熟悉 ucore 的 系统 调度 器 框架 ,以 及 默认 的 Round-Robin 调度 算法 。 
(3) 基于 调度 器 框架 实现 一 个 (Stride Scheduling) 调 度 算 法 来 替换 默认 的 调度 算法 。 


7.2 实验 内 容 


实验 5 完成 了 用 户 进程 的 管理 ,可 在 用 户 态 运行 多 个 进程 。 但 到 目前 为 止 , 采 用 的 调度 
策略 是 很 简单 的 FIFO 调度 策略 。 本 次 实验 主要 是 熟悉 ucore 的 系统 调度 器 框架 ,以 及 基 
于 此 框架 的 Round-Robin(RR) 调度 算法 。 然 后 参考 RR 调度 算法 的 实现 ,完成 Stride 
Scheduling 调度 算法 。 


7.2.1 练习 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1 一 实验 5。 请 把 已 做 的 实验 2 一 实验 5 的 代码 填 人 本 实验 中 代码 中 
有 labl ,lab2 lab3 \lab4 lab5 的 注释 相应 部 分 ,并 确保 编译 通过 。 注 意 : 为 了 能 够 正确 执行 
lab6 的 测试 应 用 程序 ,可 能 需 对 已 完成 的 实验 一 实验 5 的 代码 进行 进一步 改进 。 

练习 1: 使 用 Round-Robin 调度 算法 (不 需要 编码 ) 。 

完成 练习 0 后 ,建议 大 家 比较 一 下 (可 用 kdiff3 等 文件 比较 软件 ) 个 人 完成 的 lab5 和 练 
习 0 完成 后 的 刚 修 改 的 lab6 之 间 的 区 别 , 分 析 了 解 lab6 采用 RR 调度 算法 后 的 执行 过 程 。 
执行 make grade, 大 部 分 测试 用 例 应 该 通过 。 但 执行 priority. c 应 该 过 不 去 。 

练习 2: 实现 Stride Scheduling 调度 算法 (需要 编码 ) 。 

首先 需要 换 掉 RR 调度 器 的 实现 , 即 用 default_sched_stride_c # ii default_sched. c. 
然后 根据 此 文件 和 后 续 文档 对 Stride 度 器 的 相关 描述 ,完成 Stride 调度 算法 的 实现 。 

后 面 的 实验 文档 部 分 给 出 了 Stride 调度 算法 的 大 体 描述 。 这 里 给 出 Stride 调度 算法 的 
一 些 相 关 的 资料 (目前 网 上 中 文 的 资料 比较 欠缺 )。 

(1) http://wwwagss. informatik. uni-kl. de/Projekte/Squirrel/stride/node3. html, 

(2) http://citeseerx, ist. psu. edu/viewdoc/summary? doi 一 10. 1. 1. 138. 3502&rank=1, 

(3) 也 可 通过 Google 搜索 “Stride Scheduling” 来 查找 相关 资料 。 

执行 : make grade 。 如 果 所 显示 的 应 用 程序 检测 都 输出 ok, 则 基本 正确 。 如 果 只 是 
priority. c 过 不 去 ,可 执行 make run-priority 命令 来 单独 调试 它 。 大 致 执行 结果 可 看 本 章 
附录 (使 用 的 是 qemu-1. 0.1). 
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扩展 练习 Challenge: 实现 Linux 的 CFS 调度 算法 。 
在 ucore 的 调度 器 框架 下 实现 下 Linux 的 CFS 调度 算法 。 可 阅读 相关 Linux 内 核 书 籍 
或 查询 网 上 资料 ,可 了 解 CFS 的 细节 ,然后 大 致 实现 在 ucore 中 。 


7.2.2 项 目 组 成 
目录 文件 结构 图 如 图 7-1 所 示 。 


boot 
kern 


debug 
driver 
fs 

init 
M~~ libs 

| 一 一 mm 
process 


proc.c 

proc.h 

switch.S 
schedule 
default_sched.c 
default_sched.h 
default_sched_stride_c 
sched.c 

sched.h 

syscall 

syscall.c 
syscall.h 


图 7-1 目录 文件 结构 图 


相对 与 实验 5, 实 验 6 主要 增加 的 文件 有 default_sched. c,default_sched. h,default_ 
sched_stricle_c 等 ,主要 修改 的 文件 有 proc. c, proc. h, sched. c, sched. h, syscall. c 和 
syscall. h。 主 要 改动 如 下 。 

(1) libs/skew_heap. h: 提供 了 基本 的 优先 队列 数据 结构 ,为 本 次 实验 提供 了 抽象 数据 
结构 方面 的 支持 。 

(2) kern/process/proc. [ch]: proc. h 中 扩展 了 proc_struct 的 成 员 变 量 , 用 于 RR 和 
stride 调度 算法 。proc. c 中 实现 了 lab6_set_priority, 用 于 设置 进程 的 优先 级 。 

(3) kern/schedule/{ sched. h,sched. c): 定义 了 ucore 的 调度 器 框架 ,其 中 包括 相关 的 
数据 结构 (包括 调度 器 的 接口 和 运行 队列 的 结构 ) 和 具体 的 运行 时 机 制 。 

(4) kern/schedule/{default_sched. h,default_sched. c}: 具体 的 Round-robin 算法 ,在 
本 次 实验 中 需要 了 解 其 实现 。 

(5) kern/schedule/default_sched_stride_c: Stride Scheduling 调度 器 的 基本 框架 ,在 此 
次 实验 中 需要 填充 其 中 的 空白 部 分 以 实现 一 个 完整 的 Stride 调度 器 。 

(6) kern/syscall/syscall. [ch]: 增加 了 sys_gettime 系统 调用 ,便于 用 户 进程 获取 当前 时 钟 
值 ;增加 了 sys_lab6_set_priority 系统 调用 ,便于 用 户 进 程 设置 进程 优先 级 (给 priority. c 用 )。 

(7) user/ {matrix. c» priority. c，…}: 相关 的 一 些 测试 用 户 程序 .测试 调度 算法 的 正确 

。 146 。 


性 ,user 目录 下 包含 但 不 限于 这 些 程序 。 在 完成 实验 过 程 中 ,建议 阅读 这 些 测试 程序 ,以 了 
解 这 些 程序 的 行为 ,便于 进行 调试 。 


7.3 调度 框架 和 调度 算法 设计 与 实现 
7.3.1 实验 执行 流程 概述 


在 实验 5 中 创建 了 用 户 进程 ,并 让 它们 正确 运行 。 这 中 间 也 实现 了 FIFO 调度 策略 。 
可 通过 阅读 实验 5 下 的 kern/schedule/sched. c 的 schedule 函数 的 实现 来 了 解 其 FIFO 调 
度 策 略 。 与 实验 5 相 比 ,实验 6 专门 需要 针对 处 理 器 调度 框架 和 各 种 算法 进行 设计 与 实现 ， 
为 此 对 ucore 的 调度 部 分 进行 了 适当 的 修改 ,使 得 kern/schedule/sched. c 只 实现 调度 器 框 
架 , 不 再 涉及 具体 的 调度 算法 实现 ,而 调度 算法 在 单独 的 文件 (default_sched. [chj) 中 实现 。 

除 此 之 外 ,实验 中 还 涉及 了 idle 进程 的 概念 。 当 CPU 没有 进程 可 以 执行 的 时 候 , 系 统 
应 该 如 何 工 作 ? 在 实验 5 的 scheduler 实现 中 ,ucore 内 核 不 断 地 遍历 进程 池 , 直 到 找到 第 一 
个 runnable 状态 的 process, 调 用 并 执行 它 。 也 就 是 说 , 当 系 统 没 有 进程 可 以 执行 的 时 候 ， 
它 会 把 所 有 CPU 时 间 用 在 搜索 进程 池 , 以 实现 idle 的 目的 。 但 是 这 样 的 设计 不 被 大 多 数 操 
作 系 统 所 采用 ,原因 在 于 它 将 进程 调度 和 idle 进程 两 种 不 同 的 概念 混在 了 一 起 ,而 且 , 当 调 
度 器 比较 复杂 时 ,schedule 函数 本 身 也 会 比较 复杂 ,这 样 的 设计 结构 很 不 清晰 而 且 难 免 会 出 
现 错误 。 所 以 在 此 次 实验 中 , ucore 建立 了 一 个 单独 的 进程 (kern/process/proc.c 中 的 
idleproc) 作 为 CPU 空闲 时 的 idle 进程 ,这 个 程序 是 通常 一 个 死 循环 。 本 实验 需要 了 解 这 个 
程序 的 实现 。 

接 下 来 可 看 看 实验 6 的 大 致 执行 过 程 , 在 init. c 中 的 kern_init 函数 增加 了 对 sched_ 
init 函数 的 调用 。sched_init 函数 主要 完成 了 对 实现 特定 调度 算法 的 调度 类 (sched_class) 
的 绑 定 , 使 得 ucore 在 后 续 的 执行 中 ,能 够 通过 调度 框架 找到 实现 特定 调度 算法 的 调度 类 并 
完成 进程 调度 相关 工作 。 为 了 更 好 地 理解 实验 6 的 整个 运行 过 程 , 这 里 需要 关注 的 重点 问 
题 如 下 。 

(1) 何 时 或 何事 件 发 生 后 需要 调度 ? 

(2) 何 时 或 何事 件 发 生 后 需要 调整 实现 调度 算法 所 涉及 的 参数 ? 

(3) 如 何 基于 调度 框架 设计 具体 的 调度 算法 ? 

(4) 如 何 灵活 应 用 链表 等 数据 结构 管理 进程 调度 ? 

大 家 可 带 着 这 些 问 题 进一步 阅读 后 续 的 内 容 。 


7.3.2 计时 器 的 原理 和 实现 


在 传统 的 操作 系统 中 ,计时 器 是 其 中 一 个 基础 而 重要 的 功能 , 它 提供 了 基于 时 间 事 件 的 
调度 机 制 。 在 ucore 中 ,timer 中 断 (irq0) 给 操作 系统 提供 了 有 一 定 间 隔 的 时 间 事 件 ,操作 系 
统 将 其 作为 基本 的 调度 和 计时 单位 ( 记 两 次 时 间 中 断 之 间 的 时 间 间 隔 为 一 个 时 间 片 timer 
splice) 。 

基于 此 时 间 单 位 ,操作 系统 得 以 向 上 提供 基于 时 间 点 的 事件 ,并 实现 基于 时 间 长 度 的 等 
待 和 唤醒 机 制 。 在 每 个 时 钟 中 断 发 生 时 ,操作 系统 产生 对 应 的 时 间 事 件 。 应 用 程序 或 者 操 
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作 系 统 的 其 他 组 件 可 以 以 此 来 构建 更 复杂 和 高 级 的 调度 。 

sched, hsched.c 定 义 了 有 关 timer 的 各 种 相关 接口 来 使 用 timer 服务 ,其 中 主要 包括 如 下 。 

(1) typedef struct{**+}timer_t: 定义 了 timer_t 的 基本 结构 ,其 可 以 用 sched. h 中 的 
timer_init 函数 对 其 进行 初始 化 。 

(2) void timer_init(timer tx timer, struct proc_struct * proc, int expires); 对 某 计时 
器 进行 初始 化 ,让 它 在 expires 时 间 片 之 后 唤醒 proc 进程 。 

(3) void add_timer(timer tx timer): 向 系统 添加 某 个 初始 化 过 的 timer_t, 该 计时 器 在 
指定 时 间 后 被 激活 ,并 将 对 应 的 进程 唤醒 至 runnable( 如 果 当 前 进程 处 在 等 待 状态 ) 。 

(4) void del_timer(timer_t * time): 向 系统 删除 (或 者 说 取消 ) 某 一 个 计时 器 。 该 计时 
器 在 取消 后 不 会 被 系统 激活 并 唤醒 进程 。 

(5) void run_timer_list(void) : 更 新 当前 系统 时 间 点 ,遍历 当前 所 有 处 在 系统 管理 内 的 
计时 器 , 找 出 所 有 应 该 激活 的 计数 器 ,并 激活 它们 。 该 过 程 只 在 每 次 计时 器 中 断 时 被 调用 。 
在 ucore 中 ,其 还 会 调用 调度 器 事件 处 理 程序 。 

一 个 timer_t 在 系统 中 的 存活 周期 可 以 被 描述 如 下 。 

O timer_t 在 某 个 位 置 被 创建 和 初始 化 ,并 通过 add_timer 加 入 系统 管理 列表 中 。 

© 系统 时 间 被 不 断 累 加 ,直到 run_timer_list 发 现 该 timer_t 到 期 。 

@ run_timer_list 更 改 对 应 的 进程 状态 ,并 从 系统 管理 列表 中 移 除 该 timer_t。 尽 管 本 
次 实验 并 不 需要 填充 计时 器 相关 的 代码 ,但 是 作为 系统 重要 的 组 件 (同时 计时 器 也 是 调度 器 
的 一 部 分 ) ,本 实验 要 求 了 解 其 相关 机 制 和 在 ucore 中 的 实现 方法 。 接 下 来 的 实验 描述 将 会 
在 一 定 程度 上 忽略 计时 器 对 调度 带 来 的 影响 , 即 不 考虑 基于 固定 时 间 点 的 调度 。 


7.3.3 进程 状态 


在 此 次 实验 中 ,进程 状态 之 间 的 转换 需要 有 一 个 更 为 清晰 的 表述 ,在 ucore 中 ,runnable 
的 进程 会 被 放 在 运行 队列 中 。 值 得 注意 的 是 ,在 具体 实现 中 ,ucore 定义 的 进程 控制 块 
struct proc_struct 包含 了 成 员 变量 state, 用 于 描述 进程 的 运行 状态 ,而 running 和 runnable 
共享 同一 个 状态 (state) 值 (PROC_RUNNABLE)。 不 同 之 处 在 于 处 于 running 态 的 进程 不 
会 放 在 运行 队列 中 。 进 程 的 正常 生命 周期 如 下 。 

(1) 进程 首先 在 CPU 初始 化 或 者 sys_fork 的 时 候 被 创建 , 当 为 该 进程 分 配 了 一 个 进程 
描述 符 之 后 ,该 进程 进入 uninit 态 ( 在 proc. c 中 的 alloc_proc) 。 

(2) 当 进 程 完全 完成 初始 化 之 后 ,该 进程 转 为 runnable 态 。 

(3) 当 到 达 调 度 点 时 ,由 调度 器 sched_class 根据 运行 队列 rq 的 内 容 来 判断 一 个 进程 是 
否 应 该 被 运行 , 即 把 处 于 runnable 态 的 进程 转换 成 running 状态 ,从 而 占用 CPU 执行 。 

(4) running 态 的 进程 通过 wait 等 系统 调用 被 阻塞 ,进入 sleeping 态 。 

(5) sleeping 态 的 进程 被 wakeup 变 成 runnable 态 的 进程 。 

(6) running 态 的 进程 主动 exit 变 成 zombie 态 , 然 后 由 其 父 进程 完成 对 其 资源 的 最 后 
释放 , 子 进程 的 进程 控制 块 成 为 unused, 

(7) 所 有 从 runnable 态 变 成 其 他 状态 的 进程 都 要 出 运行 队列 ,反之 ,被 放 入 某 个 运行 队 
列 中 。 
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7.3.4 进程 调度 实现 


1. 内 核 抢占 点 

调度 本 质 上 体现 了 对 CPU 资源 的 抢占 。 对 于 用 户 进程 而 言 , 由 于 有 中 断 的 产生 ,可 以 
随时 打 断 用 户 进程 的 执行 , 转 到 操作 系统 内 部 ,从 而 给 了 操作 系统 以 调度 控制 权 , 让 操作 系 
统 可 以 根据 具体 情况 (比如 用 户 进程 时 间 片 已 经 用 完了 ) 选 择 其 他 用 户 进程 执行 。 这 体现 了 
用 户 进程 的 可 抢占 性 (preemptive) 。 但 如 果 把 ucore 操作 系统 也 看 成 一 个 特殊 的 内 核 进 程 
或 多 个 内 核 线程 的 集合 ,那么 ucore 是 否 也 是 可 抢占 的 呢 ? 其 实 ucore 内 核 执行 是 不 可 抢 
占 的 (non-preemptive) , 即 在 执行 “任意 ?内核 代码 时 ,CPU 控制 权 可 被 强制 剥夺 。 这 里 需要 
注意 ,不 是 在 所 有 情况 下 ucore 内 核 执 行 都 是 不 可 抢占 的 ,有 以 下 几 种 “固定 ”情况 是 例外 。 

(1) 进行 同步 互 斥 操 作 , 比 如 争 抢 一 个 信号 量 、 锁 (lab7 中 会 详细 分 析 ) 。 

(2) 进行 磁盘 读 写 等 耗 时 的 异步 操作 ,由 于 等 待 完 成 的 耗 时 太 长 , ucore 会 调用 
shcedule 让 其 他 就 绪 进 程 执 行 。 

这 几 种 情况 其 实 都 是 由 于 当前 进程 所 需 的 某 个 资源 (也 可 称 为 事件 ) 无 法 得 到 满足 ,无 
法 继续 执行 下 去 ,从 而 不 得 不 主动 放弃 对 CPU 的 控制 权 。 如 果 参 照 用 户 进 程 任 何 位 置 都 
可 被 内 核 打 断 并 放弃 CPU 控制 权 的 情况 ,这 些 在 内 核 中 放弃 CPU 控制 权 的 执行 地 点 是 
“固定 ”而 不 是 “任意 ”的 ,不 能 体现 内 核 任意 位 置 都 可 抢占 性 的 特点 。 搜 寻 一 下 实验 5 的 代 
码 , 可 发 现在 如 下 几 处 地 方 调用 了 shedule 函数 ,如 表 7-1 所 示 。 


表 7-1 调用 进程 调度 函数 schedule 的 位 置 和 原因 


编号 位 置 原 
1 proc. c: :do_exit 用 户 线程 执行 结束 ,主动 放弃 CPU 控制 权 
2 proc. c::do_wait 用 户 线程 等 待 子 进程 结束 ,主动 放弃 CPU 控制 权 
(1) initproc 内 核 线 程 等 待 所 有 用 户 进 程 结束 ,如 果 没 有 结束 ,就 
ae 主动 放弃 CPU 控制 权 
3 proc. c: :init_main 


(2) initproc 内 核 线程 在 所 有 用 户 进程 结束 后 ,让 kswapd 内 核 线 
程 执行 10 次 ,用 于 回收 空闲 内 存 资 源 

idleproc 内 核 线程 的 工作 就 是 等 待 有 处 于 就 绪 态 的 进程 或 线程 ， 

如 果 有 就 调用 schedule 函数 

5 sync. h: :lock 在 获取 锁 的 过 程 中 ,如 果 无 法 得 到 锁 , 则 主动 放弃 CPU 控制 权 


如 果 当 前 进程 在 用 户 态 被 打 断 , 且 当 前 进程 控制 块 的 成 员 变量 
need_resched 设置 为 1, 则 当前 线程 会 放弃 CPU 控制 权 


4 proc. c::cpu_idle 


6 trap. c: :trap 


仔细 分 析 上 述 位 置 ,第 1.2、5 处 的 执行 位 置 体现 了 由 于 获取 某 种 资源 一 时 等 不 到 满足 、 
进程 要 退出 、 进 程 要 睡眠 等 原因 而 不 得 不 主动 放弃 CPU。 第 3、4 处 的 执行 位 置 比较 特殊 ， 
initproc 内 核 线程 等 待 用 户 进程 结束 而 执行 schedule 函数 :idle 内 核 线程 在 没有 进程 处 于 就 
绪 态 时 才 执 行 , 一 旦 有 了 就 绪 态 的 进程 , 它 将 执行 schedule 函数 完成 进程 调度 。 这 里 只 有 
第 6 处 的 位 置 比较 特殊 : 


if(!in kemel) { 
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KERI TRA HHEH AS SAT BE RS eB AE. H 
前 进程 控制 块 成 员 变量 need_resched 为 1( 表 示 需 要 调度 了 ) 时 , 才 会 执行 shedule 函数 。 这 
实际 上 体现 了 对 用 户 进 程 的 可 抢占 性 。 如 果 没 有 第 一 行 的 二 语句 ,那么 就 可 以 体现 对 内 核 
代码 的 可 抢占 性 。 但 如 果 要 把 这 一 行 if 语句 去 掉 , 就 不 得 不 实现 对 ucore 中 的 所 有 全 局 变 
量 的 互 斥 访问 操作 ,以 防止 race condition 现象 ,这 样 ucore 的 实现 复杂 度 会 增加 不 少 。 

2. 进程 切换 过 程 

进程 调度 函数 schedule 选择 了 下 一 个 将 占用 CPU 执行 的 进程 后 ,将 调用 进程 切换 ,从 
而 让 新 的 进程 得 以 执行 。 通 过 实验 4 和 实验 5 的 理解 ,应 该 已 经 对 进程 调度 和 上 下 文 切换 
有 了 初步 的 认识 。 在 实验 5 中 ,结合 调度 器 框架 的 设计 ,可 对 ucore 中 的 进程 切换 以 及 堆栈 
的 维护 和 使 用 等 有 更 加 深刻 的 认识 。 假 定 有 两 个 用 户 进程 ,在 两 者 进行 进程 切换 的 过 程 中 ， 
具体 的 步骤 如 下 。 

首先 在 执行 某 进程 A 的 用 户 代码 时 ,出 现 了 一 个 trap (例如 ,是 一 个 外 设 产生 的 中 
断 ), 这 时 就 会 从 进程 A 的 用 户 态 切换 到 内 核 态 (过 程 (1)), 并 且 保 存 好 进程 A 的 
trapframe; 当 内 核 态 处 理 中 断 时 发 现 需要 进行 进程 切换 时 ,ucore 要 通过 schedule 函数 选择 
下 一 个 将 占用 CPU 执行 的 进程 ( 即 进程 B) ,然后 会 调用 proc_run 函数 ,proc_run 函数 进 一 
步调 用 switch_to 函数 ,切换 到 进程 B 的 内 核 态 (过 程 (2)) ,继续 进程 B 上 一 次 在 内 核 态 的 
操作 ,并 通过 iret 指令 ,最 终 将 执行 权 转 交 给 进程 B 的 用 户 空 间 ( 过 程 (3) ) 。 

当 进 程 B 由 于 某 种 原因 发 生 中 断 之 后 (过 程 (4)) ,会 从 进程 B 的 用 户 态 切换 到 内 核 态 ， 
并 且 保 存 好 进程 B 的 trapframe; 当 内 核 态 处 理 中 断 时 发 现 需要 进行 进程 切换 时 , 即 需 要 切 
换 到 进程 A, ucore 再 次 切换 到 进程 A( 过 程 (5)), 会 执行 进程 A 上 一 次 在 内 核 调用 
schedule( 具 体 还 要 跟踪 到 switch_to 函数 ) 函 数 返回 后 的 下 一 行 代码 ,这 行 代码 当然 还 是 在 
进程 A 的 上 一 次 中 断 处 理 流程 中 。 最 后 当 进 程 A 的 中 断 处 理 完毕 的 时 候 , 执 行 权 又 会 反 交 
给 进程 A 的 用 户 代码 (过 程 (6))。 这 就 是 在 只 有 两 个 进程 的 情况 下 ,进程 切换 间 的 大 体 
流程 。 

需要 强调 的 几 点 如 下 。 

(1) 需要 透彻 理解 在 进程 切换 以 后 ,程序 是 从 哪里 开始 执行 的 ?需要 注意 到 虽然 指令 
还 是 同一 个 CPU 上 执行 ,但 是 此 时 已 经 是 另外 一 个 进程 在 执行 了 , 且 使 用 的 资源 已 经 完全 
不 同 了 。 

(2) 内 核 在 第 一 个 程序 运行 的 时 候 , 需 要 进行 哪些 操作 ? 有 了 实验 4 和 实验 5 的 经 验 ， 
可 以 确定 ,内 核 启 动 第 一 个 用 户 进 程 的 过 程 ,实际 上 是 从 进程 启动 时 的 内 核 状态 切换 到 该 用 
户 进 程 的 内 核 状 态 的 过 程 ,而 且 该 用 户 进 程 在 用 户 态 的 起 始 入 口 应 该 是 forkret。 


7.3.5 调度 框架 和 调度 算法 


1. 设计 思路 
实行 一 个 进程 调度 策略 ,到底 需要 实现 哪些 基本 功能 对 应 的 数据 结构 ? 首先 考虑 到 一 
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个 无 论 哪 种 调度 算法 都 需要 选择 一 个 就 绪 进程 来 占用 CPU 运行 。 为 此 我 们 可 把 就 绪 进 程 
组 织 起 来 ,可 用 队列 (双向 链表 ) ,二 又 树 , 红 黑 树 .数组 等 不 同 的 组 织 方式 。 

在 操作 方面 ,如 果 需 要 选择 一 个 就 绪 进 程 , 就 可 以 从 基于 某 种 组 织 方式 的 就 绪 进程 集合 
中 选择 出 一 个 进程 执行 。 需 要 注意 ,这 里 “选择 "和 “出 ”是 两 个 操作 ,选择 是 在 集合 中 挑选 一 
个 “合适 ”的 进程 “出 ?意味 着 离开 就 绪 进程 集合 。 另 外 考虑 到 一 个 处 于 运行 态 的 进程 还 会 
由 于 某 种 原因 (比如 时 间 片 用 完了 ) 回 到 就 绪 态 而 不 能 继续 占用 CPU 执行 ,这 就 会 重新 进 
人 到 就 绪 进 程 集 合 中 。 这 两 种 情况 就 形成 了 调度 器 相关 的 三 个 基本 操作 : 在 就 绪 进 程 集合 
中 选择 .进入 就 绪 进 程 集合 和 离开 就 绪 进 程 集合 。 这 三 个 操作 属于 调度 器 的 基本 操作 o 

在 进程 的 执行 过 程 中 ,就 绪 进 程 的 等 待 时 间 和 执行 进程 的 执行 时 间 是 影响 调度 选择 的 
重要 因素 ,这 两 个 因素 随 着 时 间 的 流逝 和 各 种 事件 的 发 生 在 不 停 地 变化 ,比如 处 于 就 绪 态 的 
进程 等 待 调度 的 时 间 在 增长 ,处 于 运行 态 的 进程 所 消耗 的 时 间 片 在 减少 等 。 这 些 进程 状态 
变化 的 情况 需要 及 时 让 进程 调度 器 知道 ,便于 选择 更 合适 的 进程 执行 。 所 以 这 种 进程 变化 
的 情况 就 形成 了 调度 器 相关 的 一 个 变化 感知 操作 : timer 时 间 事 件 感知 操作 。 这 样 在 进程 
运行 或 等 待 的 过 程 中 ,调度 器 可 以 调整 进程 控制 块 中 与 进程 调度 相关 的 属性 值 (比如 消耗 的 
时 间 片 .进程 优先 级 等 ), 并 可 能 导致 对 进程 组 织 形式 的 调整 (比如 以 时 间 片 大 小 的 顺序 来 重 
排 双 向 链表 等 ) ,并 最 终 可 能 导致 调 选择 新 的 进程 占用 CPU 运行 。 这 个 操作 属于 调度 器 的 
进程 调度 属性 调整 操作 。 

2. 数据 结构 

在 理解 框架 之 前 ,需要 先 了 解 一 下 调度 器 框架 所 需要 的 数据 结 

(1) 通常 的 操作 系统 中 ,进程 池 是 很 大 的 (虽然 在 ucore 中 ,MAX_PROCESS 很 小 ) 。 
在 ucore 中 ,调度 器 引入 run-queue( 简 称 rq, 即 运行 队列 ) 的 概念 ,通过 链表 结构 管理 进程 。 

(2) 由 于 目前 ucore 设计 运行 在 单 CPU 上 ,其 内 部 只 有 一 个 全 局 的 运行 队列 ,用 来 管 
理 系统 内 全 部 的 进程 。 

(3) 运行 队列 通过 链表 的 形式 进行 组 织 。 链 表 的 每 一 个 节点 是 一 个 list_entry_t, 每 个 
list_entry_t 又 对 应 到 了 struct proc_struct * ,这 其 间 的 转换 是 通过 宏 le2proc 来 完成 的 。 
具体 来 说 ,我 们 知道 在 struct proc_struct 中 有 一 个 叫 run_link 的 list_entry_t, 因 此 可 以 通 
过 偏 移 量 逆向 找到 对 因 某 个 run_list 的 struct proc_struct。 即 进程 结构 指针 proc=le2proc 
(链表 节点 指针 ,run_link) 。 

(4) 为 了 保证 调度 器 接口 的 通用 性 ,ucore 调度 框架 定义 了 如 下 接口 ,该 接口 中 ,几乎 全 
部 成 员 变 量 均 为 函数 指针 。 具 体 的 功能 会 在 后 面 的 框架 说 明 中 介绍 。 
struct sched class { 

// 调 度 器 的 名 字 

const char * name; 

// 初 始 化 运行 队列 

void(* init) (struct rn queuex rg); 

// 将 进程 p 插 入 队列 rq 

void(* enqueue) (struct run_queue* rq, struct proc_struct * p); 
// 将 进程 p 从 队列 rq 中 删除 

void(* dequeue) (struct nn queue* ng, struct proc_struct * p); 
// 返 回 运行 队列 中 下 一 个 可 执行 的 进程 
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ube struct proc struct * (* pick next) (struct run_queue* rg); 

12 //timetick 处 理 函数 

13 void(* proc tick) (struct nn _queve* rg,struct proc struct* p); 
14 F} 


此 外 ,proc.h 中 的 struct proc_struct 中 也 记录 了 一 些 调度 相关 的 信息 : 


struct proc struct { 


// 该 进程 是 否 需要 调度 ,只 对 当前 进程 有 效 
volatile bool need_resched; 

// 该 进程 的 调度 链表 结构 ,该 结构 内 部 的 链接 组 成 了 运行 队列 列表 
list entry t rn link; 

// 该 进程 剩余 的 时 间 片 ,只 对 当前 进程 有 效 

int time_slice; 

//round- robin 调度 器 并 不 会 用 到 以 下 成 员 

10 ”// 该 进程 在 优先 队列 中 的 节点 , 仅 在 lab6 中 使 用 
11 skew heap entry t 1ab6 nn pool; 

12  // 该 进程 的 调度 优先 级 , 仅 在 labo 中 使 用 

13 uint32_t labé priority; 

14 // 该 进程 的 调度 步 进 值 , 仅 在 lab6 中 使 用 

15 uint32 t labé stride; 

16 于 


在 此 次 实验 中 ,需要 了 解 default_sched. c 中 的 实现 RR 调度 算法 的 函数 。 在 该 文件 
中 ,可 以 看 到 ucore 已 经 为 RR 调度 算法 创建 好 了 一 个 名 为 RR_sched_class 的 调度 策略 类 。 
通过 数据 结构 struct run_queue 来 描述 完整 的 run_queue( 运 行 队列 )。 它 的 主要 结构 
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如 下 : 
1 struct nn qee { 
2 /其 运行 队列 的 哨兵 结构 ,可 以 看 做 队列 头 和 尾 
3 list entry t nn List; 
4 /优先 队列 形式 的 进程 容器 ,只 在 lab6 中 使 用 
5 skew heap entry t * labé nun pool; 
6 /表示 其 内 部 的 进程 总 数 
7 unsigned int proc num; 
8 ”// 每 个 进程 一 轮 占 用 的 最 多 时 间 片 
9 int max tie sliœ; 
10 F 


在 ucore 框架 中 ,运行 队列 存储 的 是 当前 可 以 调度 的 进程 ,所 以 ,只 有 状态 为 runnable 
的 进程 才能 够 进入 运行 队列 。 当 前 正在 运行 的 进程 并 不 会 在 运行 队列 中 ,这 一 点 需要 注意 。 
3. 调度 点 的 相关 关键 函数 
虽然 进程 各 种 状态 变化 的 原因 和 导致 的 调度 处 理 各 异 ,但 其 实 仔细 观察 各 个 流程 的 共 
性 部 分 ,会 发 现 其 中 只 涉及 了 三 个 关键 调度 相关 函数 : wakup_proc、 shedule, run_timer_ 
list。 如 果 我 们 能 够 让 这 三 个 调度 相关 函数 的 实现 与 具体 调度 算法 无 关 , 那 么 就 可 以 认为 
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ucore 实现 了 一 个 与 调度 算法 无 关 的 调度 框架 。 

wakeup_proc 函数 其 实 完成 了 把 一 个 就 绪 进 程 放 和 人 就 绪 进程 队列 中 的 工作 ,为 此 还 调 
用 了 一 个 调度 类 接口 函数 sched_class_enqueue, 这 使 得 wakeup_proc 函数 的 实现 与 具体 调 
度 算法 无 关 。schedule 函数 完成 了 与 调度 框架 和 调度 算法 相关 的 三 件 事情 :把 当前 继续 占 
用 CPU 执行 的 运行 进程 放 和 人 到 就 绪 进 程 队列 中 ,从 就 绪 进 程 队 列 中 选择 一 个 “合适 就绪 
进程 ,把 这 个 “合适 ”的 就 绪 进 程 从 就 绪 进 程 队 列 中 摘除 。 通 过 调用 三 个 调度 类 接口 函数 
sched_class_enqueue,sched_class_pick_next,sched_class_enqueue 来 使 得 完成 这 三 件 事情 
与 具体 的 调度 算法 无 关 。run_timer_list 函数 在 每 次 timer 中 断 处 理 过 程 中 被 调用 ,从 而 可 
用 来 调用 调度 算法 所 需 的 timer 时 间 事 件 感知 操作 ,调整 相关 进程 的 进程 调度 相关 的 属性 
值 。 通 过 调用 调度 类 接口 函数 sched_class_proc_tick 使 得 此 操作 与 具体 调度 算法 无 关 。 

这 里 涉及 了 一 系列 调度 类 接口 函数 。 


(1) sched_class_enqueue, 


(2) sched_class_dequeue, 

(3) sched_class_pick_next, 

(4) sched_class_proc_tick, 

这 4 个 函数 的 实现 其 实 就 是 调用 某 基 于 sched_class 数据 结构 的 特定 调度 算法 实现 的 4 
个 指针 函数 。 采 用 这 样 的 调度 类 框架 后 ,如 果 我 们 需要 实现 一 个 新 的 调度 算法 , 则 需要 定义 
一 个 针对 此 算法 的 调度 类 的 实例 ,一 个 就 绪 进 程 队列 的 组 织 结构 描述 就 行 了 ,其 他 的 事情 都 
可 交 给 调度 类 框架 来 完成 。 

4. RR 调度 算法 的 实现 

RR 调度 算法 的 调度 思想 是 让 所 有 runnable 态 的 进程 分 时 轮流 使 用 CPU 时 间 。RR 
调度 器 维护 当前 runnable 进程 的 有 序 运行 队列 。 当 前 进程 的 时 间 片 用 完 之 后 ,调度 器 将 当 
前 进程 放置 到 运行 队列 的 尾部 ,再 从 其 头 部 取出 进程 进行 调度 。RR 调度 算法 的 就 绪 队 列 
在 组 织 结 构 上 也 是 一 个 双向 链表 ,只 是 增加 了 一 个 成 员 变 量 ,表明 在 此 就 绪 进 程 队 列 中 的 最 
大 执行 时 间 片 。 而 且 在 进程 控制 块 proc_struct 中 增加 了 一 个 成 员 变 量 time_slice, 用 来 记 
录 进 程 当前 的 可 运行 时 间 片 。 这 是 由 于 RR 调度 算法 需要 考虑 执行 进程 的 运行 时 间 不 能 太 
长 。 在 每 个 timer 到 的 时 候 , 操 作 系 统 会 递减 当前 执行 进程 的 time_slice, 当 time_slice X 0 
时 ,就 意味 着 这 个 进程 运行 了 一 段 时 间 ( 这 个 时 间 片 称 为 进程 的 时 间 片 ) ,需要 把 CPU 让 给 
其 他 进程 执行 ,于 是 操作 系统 就 需要 让 此 进程 重新 回 到 rq 的 队列 尾 , 且 重 置 此 进程 的 时 间 
片 为 就 绪 队 列 的 成 员 变 量 最 大 时 间 片 max_time_slice 值 , 然 后 再 从 rq 的 队列 头 取 出 一 个 新 
的 进程 执行 。 下 面 来 分 析 一 下 其 调度 算法 的 实现 。 

RR_enqueue 的 函数 实现 如 下 所 示 , 即 把 某 进 程 的 进程 控制 块 指针 放 入 rq 队列 末尾 , 且 
如 果 进 程控 制 块 的 时 间 片 为 0, 则 需要 把 它 重 置 为 rq 成 员 变量 max_time_slice。 这 表示 如 
果 进 程 在 当前 的 执行 时 间 片 已 经 用 完 ,需要 等 到 下 一 次 有 机 会 运行 时 ,才能 再 执行 一 段 
时 间 。 

static void 

RR_enqueve (struct rn queue* rq, struct proc struct* proc) { 

assert (List_empty (& (proc- > run_link))); 
list add before (&(rq- > nn list), &(proc- > nn link)); 


if (proc- > time_slice==0||proc- > time slice> rq- >max time slice) { 
proc- > time slice=rq->max time slice; 
J 
proc-> r rg; 
rq- >proc nu +; 
} 


RR_pick_next 的 函数 实现 如 下 所 示 , 即 选取 就 绪 进 程 队 列 rq 中 的 队 头 队 列 元 素 , 并 把 
队列 元 素 转换 成 进程 控制 块 指针 。 


static struct proc struct * 
FCFS pick next (struct run queue * rq) { 
list entry tx le= list next (&(rq- > nn list)); 
if (le!=6(rq- > mm list)) { 
retum le2proc (le, rn link); 
} 
retum NULL; 
} 


RR_dequeue 的 函数 实现 如 下 所 示 , 即 把 就 绪 进程 队列 rq 的 进程 控制 块 指针 的 队列 元 
素 删 除 ,并 把 表示 就 绪 进 程 个 数 的 proc_num Wak 1 。 


static void 
FCES_dequeue (struct run_queue * rq,struct proc struct * proc) { 
assert (!list_empty (& (proc- > run _link))&sproc- > r= rq); 
list_del_init (& (proc- > nn link)); 
rq > proc nm -; 
} 
RR_proc_tick 的 函数 实现 如 下 所 示 , 即 每 次 timer 到 时 后 ,trap RROK Ze E] He Wi H te eK 
数 来 把 当前 执行 进程 的 时 间 片 time_slice 减 1。 如 果 time_slice 降 到 零 , 则 设置 此 进程 成 员 
变量 need_resched 标识 为 1, 这 样 在 下 一 次 中 断 来 后 执行 trap 函数 时 ,会 由 于 当前 进程 成 员 
变量 need_resched 标识 为 1 而 执行 schedule 函数 ,从 而 把 当前 执行 进程 放 回 就 绪 队 列 末 
尾 ,而 从 就 绪 队 列 头 取出 在 就 绪 队 列 上 等 待 时 间 最 久 的 那个 就 绪 进 程 执行 。 


static void 
RR proc tick (struct run_queve* rg,struct proc struct * proc) { 
if (proc- > time sliœ 0) { 
proc- > time slice--; 
} 
if (proc- > time_slice==0) { 
Proc- > need_resched= 1; 
} 
} 


7.3.6 Stride Scheduling 


1. 基本 思路 
提示 : 请 先 看 练习 2 中 提 到 的 论文 。 理 解 后 再 看 下 面 的 内 容 。 
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考查 round-robin 调度 器 ,在 假设 所 有 进程 都 充分 使 用 了 其 拥有 的 CPU 时 间 资 源 的 情 
况 下 ,所 有 进程 得 到 的 CPU 时 间 应 该 是 相等 的 。 但 是 有 时 候 我 们 和 希望 调度 器 能 够 更 智能 
地 为 每 个 进程 分 配合 理 的 CPU 资源 。 假 设 为 不 同 的 进程 分 配 不 同 的 优先 级 , 则 我 们 有 可 
能 希望 每 个 进程 得 到 的 时 间 资 源 与 它们 的 优先 级 成 正比 关系 。Stride 调度 是 基于 这 种 想法 
一 个 较为 典型 和 简单 的 算法 。 除 了 简单 易于 实现 以 外 , 它 还 有 如 下 特点 。 
(1) 可 控 性 : 如 我 们 之 前 所 希望 的 ,可 以 证 明 Stride Scheduling 对 进程 的 调度 次 数 正 
比 于 其 优先 级 。 
(2) 确定 性 : 在 不 考虑 计时 器 事件 的 情况 下 ,整个 调度 机 制 都 是 可 预知 和 重 现 的 。 该 算 
法 的 基本 思想 可 以 考虑 如 下 。 
O 为 每 个 runnable 的 进程 设置 一 个 当前 状态 stride, 表 示 该 进程 当前 的 调度 权 。 另 外 
定义 其 对 应 的 pass 值 , 表 示 对 应 进程 在 调度 后 ,stride 需要 进行 的 累加 值 。 
@ 每 次 需要 调度 时 ,从 当前 runnable 态 的 进程 中 选择 stride 最 小 的 进程 调度 。 
© 对 于 获得 调度 的 进程 P, 将 对 应 的 stride 加 上 其 对 应 的 步 长 pass( 只 与 进程 的 优先 权 
有 关系 ) 。 
@ 在 一 段 固 定 的 时 间 之 后 , 回 到 步骤 @ ,重新 调度 当前 stride 最 小 的 进程 。 可 以 证 明 ， 
如 果 令 
P.pass= BigStride/P.priority 
其 中 ,P. priority 表示 进程 的 优先 权 ( 大 于 1) ,而 BigStride 表示 一 个 预先 定义 的 大 常数 , 则 
该 调度 方案 为 每 个 进程 分 配 的 时 间 将 与 其 优先 级 成 正比 。 证 明 过 程 在 这 里 略 去 ,有 兴趣 的 
同学 可 以 在 网 上 查找 相关 资料 。 将 该 调度 器 应 用 到 ucore 的 调度 器 框架 中 , 则 需要 将 调度 
器 接口 实现 如 下 。 
a. init. 
初始 化 调度 器 类 的 信息 (如 果 有 的 话 ) 。 
初始 化 当前 的 运行 队列 为 一 个 空 的 容器 结构 (比如 和 RR 调度 算法 一 样 ,初始 化 为 一 
有 序列 表 ) 。 
b. enqueue. 
初始 化 刚 进 入 运行 队列 的 进程 proc 的 stride 属性 。 
将 proc 插入 放 入 运行 队列 中 (注意 : 这 里 并 不 要 求 放 置 在 队列 头 部 ) 。 
c. dequeue. 
从 运行 队列 中 删除 相应 的 元 素 。 
d. pick next, 
扫描 整个 运行 队列 ,返回 其 中 stride 值 最 小 的 对 应 进程 。 
更 新 对 应 进程 的 stride 值 , 即 pass=BIG_STRIDE/P—>priority; P—>stride+ = pass, 
e. proc tick. 
检测 当前 进程 是 否 已 用 完 分 配 的 时 间 片 。 如 果 时 间 片 用 完 , 应 该 正确 设置 进程 结构 的 
相关 标记 来 引起 进程 切换 。 
一 个 process 最 多 可 以 连续 运行 rq. max_time_slice 个 时 间 片 。 
在 具体 实现 时 ,有 一 个 需要 注意 的 地 方 . 即 stride 属性 的 溢出 问题 ,在 之 前 的 实现 里 面 
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我 们 并 没有 考虑 stride 的 数值 范围 ,而 这 个 值 在 理论 上 是 不 断 增加 的 ,在 stride at tH Wa. 
基于 stride 的 比较 可 能 会 出 现 错误 。 例 如 ,假设 当前 存在 两 个 进程 A 和 B. stride 属性 采用 
16 位 无 符号 整数 进行 存储 。 当 前 队列 中 元 素 如 下 (假设 当前 运行 的 进程 已 经 被 重新 放置 进 
运行 队列 中 ) : 


A. stride( 实 际 值 ) A, stride( 理 论 值 ) A. pass( — BigStride ) 
A. priority 
65534 65534 100 
B. stride( 实 际 值 ) B. stride( 理 论 值 ) B. pass( St ) 
B. priority 
65535 65535 50 


此 时 应 该 选择 A 作为 调度 的 进程 ,而 在 一 轮 调度 后 ,队列 将 如 下 : 


A, stride( 实 际 值 ) A. stride( 理 论 值 ) A. pass( = BigStride ) 
A, priority 
98 65634 100 
B. stride( 实 际 值 ) B. stride( 理 论 值 ) B. pass ( Ex BigStride ) 
B. priority 
65535 65535 50 


HY A 3 h F aH Wih SHE RE Va] stride 的 理论 比较 和 实际 比较 结果 出 现 了 偏差 。 我 
们 首先 在 理论 上 分 析 这 个 问题 ; 4 PASS MAX 为 当前 所 有 进程 里 最 大 的 步 进 值 , 则 可 以 
证 明 如 下 结论 : 对 每 次 Stride 调度 器 的 调度 步骤 中 ,有 其 最 大 的 步 进 值 STRIDE_MAX 和 
最 小 的 步 进 值 STRIDE_MIN 22: 


STRIDE MAX ë SRIE MIN<= PRSS_ MX 
提问 1: 如 何 证 明 该 结论 ? 有 了 该 结论 ,在 加 上 之 前 对 优先 级 有 Priority > 1 限制 ,我们 有 
STRIDE MX — STRIDE MINK=BIG_STRIIE 


于 是 ,只 要 将 BigStride 取 在 某 个 范围 之 内 , 即 可 保证 对 于 任意 两 个 Stride 之 差 都 会 在 机 器 
整数 表示 的 范围 之 内 。 可 以 通过 其 与 0 的 比较 结构 ,来 得 到 两 个 Stride 的 大 小 关系 。 在 上 
例 中 ,虽然 在 直接 的 数值 表示 上 98 <65535. 1A FE 98 一 65535 的 结果 用 带 符号 的 16 位 整数 
表示 的 结果 为 99 ,与 理论 值 之 差 相 等 。 所 以 在 这 个 意义 下 98 之 65535。 基 于 这 种 特殊 考虑 
的 比较 方法 ,即便 Stride 有 可 能 溢出 ,我们 仍 能 够 得 到 理论 上 的 当前 最 小 Stride, 并 做 出 正 
确 的 调度 决定 。 

提问 2: 在 ucore 中 ,目前 Stride 是 采用 无 符号 的 32 位 整数 表示 , 则 BigStride 应 该 取 
多 少 才能 保证 比较 的 正确 性 ? 

2. 使 用 优先 队列 实现 Stride Scheduling 

在 上 述 的 实现 描述 中 ,对 于 每 一 次 pick_next 函数 ,都 需要 完整 地 扫描 来 获得 当前 最 小 
的 stride 及 其 进程 。 这 在 进程 非常 多 的 时 候 是 非常 耗 时 和 低 效 的 .有 兴趣 的 同学 可 以 在 实 
现 了 基于 列表 扫描 的 Stride 调度 器 之 后 比较 一 下 priority 程序 在 Round-Robin 及 Stride 调 
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度 器 下 各 自 的 运行 时 间 。 考 虑 到 其 调度 选择 与 优先 队列 的 抽象 逻辑 一 致 ,我 们 考虑 使 用 优 
化 的 优先 队列 数据 结构 实现 该 调度 。 

优先 队列 是 这 样 一 种 数据 结构 : 使 用 者 可 以 快速 地 插入 和 删除 队列 中 的 元 素 , 并 且 在 
预先 指定 的 顺序 下 快速 取得 当前 在 队列 中 的 最 小 (或 者 最 大 ) 值 及 其 对 应 元 素 。 可 以 看 到 ， 
这 样 的 数据 结构 非常 符合 Stride 调度 器 的 实现 。 

本 次 实验 提供 了 libs/skew_heap. h 作为 优先 队列 的 一 个 实现 ,该 实现 定义 相关 的 结构 
和 接口 ,其 中 主要 包括 如 下 : 


1 /优先 队列 节点 的 结构 

2 typedef struct skew heap entry skew heap entry t; 

3 VM/ 初始 化 一 个 队列 节点 

4 void skew heap init (skew heap entry t* a); 

5 /将 节点 bp 插入 至 以 节点 a 为 队列 头 的 队列 中 ,返回 插入 后 的 队列 
6 Skew heap entry t * skew heap insert (skew heap entry t * a, 

7 skew heap entry t * b, 
8 compare f camp); 

9 // 将 节点 了 b 插 入 从 以 节点 a 为 队列 头 的 队列 中 ,返回 删除 后 的 队列 
10 Skew heap entry t* skew heap remove(skew heap entry tx a, 

11 skew_heap entry tx b, 
12 ampare f camp); 


其 中 优先 队列 的 顺序 是 由 比较 函数 comp 决定 的 ,sched_stride. c 中 提供 了 proc_stride_ 
comp_f 比较 器 用 来 比较 两 个 stride 的 大 小 ,可 以 直接 使 用 它 。 当 使 用 优先 队列 作为 Stride 
调度 器 的 实现 方式 之 后 ,运行 队列 结构 也 需要 作 相 关 改 变 , 其 中 包括 如 下 。 

(1) struct run_queue 中 的 lab6_run_pool 指针 ,在 使 用 优先 队列 的 实现 中 表示 当前 优 
先 队列 的 头 元 素 , 如 果 优 先 队列 为 空 , 则 其 指向 空 指针 (NULL)。 

(2) struct proc_struct 中 的 lab6_run_pool 结构 ,表示 当前 进程 对 应 的 优先 队列 节点 。 
本 次 实验 已 经 修改 了 系统 相关 部 分 的 代码 ,使 得 其 能 够 很 好 地 适应 lab6 新 加 入 的 数据 结构 
和 接口 。 在 实验 中 我 们 需要 做 的 是 用 优先 队列 实现 一 个 正确 和 高 效 的 Stride 调度 器 ,如 果 
用 较 简略 的 伪 代 码 描 述 , 则 有 如 下 表示 。 

OO init(rq): 

Initialize rq- > rn list 

Set rq- > lab6_ nn pool to NULL 

Set ro > proc_num to 0 

© enqueue(rq. proc): 

Initialize proc-> time slice 

Insert proc- > lab6 run pool into rq- > lab6 mm pool 

rý > proc_num++ 


© dequeue(rq, proc): 


Remove proc- > lab6 run pool frm rq- > lab6 nin pool 


rq > proc_num - 
@ pick_next(rq): 


Tf rq- > labé nn pool-=NULL, retum NULL 

Find the proc corresponding to the pointer rq- > lab6 run pool 
proc- > lab6 stride+=BIG STRIDE / proc- > lab6 priority 
Retum proc 


© proc_tick(rq. proc): 


If proc- > tie sliœ 0, proc->time_slice-- 
If proc- > time slice==0, set the flag proc- >need_resched 


7.4 实验 报告 要 求 


从 网 站 上 下 载 lab6. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab6 ,完成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab6- 
handin. tar. gz。 最 后 请 一 定 提 前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 labo 的 注释 ,主要 是 修改 default_sched_swide_c 中 的 内 容 。 代 码 中 所 有 需要 完 
成 的 地 方 (challenge 除外 ) 都 有 lab6 Al“ Your Code" 的 注释 ,请 在 提交 时 特别 注意 保持 注 
释 ,并 将 “Your Code” 蔡 换 为 自己 的 学 号 ,并 且 将 所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 
代码 。 


辅助 材料 A PUTT priority 大 致 的 显示 输出 


$make rur priority 


check_swap() succeeded! 
++ setup timer interrupts 
kemel execve: pid=2, name= "priority". 
main: fork ok,now need to wait pids. 
child pid 7, acc 2492000, time 2001 
child pid 6, acc 1944000, time 2001 
child pid 4, acc 960000, time 2002 
child pid 5, acc 1488000, time 2003 
child pid 3, acc 540000, time 2004 
main: pid 3, acc 540000, time 2004 
main: pid 4, acc 960000, time 2004 
main: pid 5, acc 1488000, time 2004 
main: pid 6, acc 1944000, time 2004 
main: pid 7, acc 2492000, time 2004 
main: wait pids over 
stride sched correct result: 12345 
* 158 * 


all user- mode processes have quit. 
init check memory pass. 
kemel panic at kem/process/proc.c:426: 


initproc exit. 


Welcame to the kemel debug monitor!! 
Type 'help' for a list of commands. 
kb 


第 8 章 实验 7: 同步 互 斥 


8.1 实验 目的 


(1) 熟悉 ucore 中 的 进程 同步 机 制 ,了 解 操 作 系统 为 进程 同步 提供 的 底层 支持 。 

(2) 在 ucore 中 理解 信号 量 (semaphore) 机 制 的 具体 实现 。 

(3) 理解 管 程 机 制 ,在 ucore 内 核 中 增加 基于 管 程 (monitor) 的 条 件 变量 (condition 
variable) 的 支持 。 

(4) 了 解 经 典 进程 同步 问题 ,并 能 使 用 同步 机 制 解决 进程 同步 问题 。 


8.2 实验 内 容 


实验 6 完成 了 用 户 进程 的 调度 框架 和 具体 的 调度 算法 ,可 调度 运行 多 个 进程 。 如 果 多 
个 进程 需要 协同 操作 或 访问 共享 资源 , 则 存在 如 何 同步 和 有 序 竞 争 的 问题 。 本 次 实验 ,主要 
是 熟悉 ucore 的 进程 同步 机 制 一 一 信号 量 机 制 ,以 及 基于 信号 量 的 哲学 家 就 餐 问 题解 决 方 
案 。 然 后 掌握 管 程 的 概念 和 原理 ,并 参考 信号 量 机 制 ,实现 基于 管 程 的 条 件 变 量 机 制 和 基于 
条 件 变量 来 解决 哲学 家 就 餐 问 题 。 

在 本 次 实验 中 ,在 kern/sync/check_sync.c 中 提供 了 一 个 基于 信号 量 的 哲学 家 就 餐 问 
题解 法 。 同 时 还 需 完成 练习 , 即 实现 基于 管 程 (主要 是 灵活 运用 条 件 变量 和 互 斥 信号 量 ) 的 
哲学 家 就 餐 问 题解 法 。 哲 学 家 就 餐 问 题 描 述 如 下 : 有 五 个 哲学 家 ,他 们 的 生活 方式 是 交替 
地 进行 思考 和 进餐 。 哲 学 家 们 共用 一 张 圆 桌 , 周 围 放 有 五 把 椅子 ,每 人 坐 一 把 。 在 圆桌 上 有 
五 个 碗 和 五 根 策 子 , 当 一 个 哲学 家 思考 时 ,他 不 与 其 他 人 交谈 ,饥饿 时 便 试 图 取 用 其 左 、 右 最 
AGE AWS PRA ,但 他 可 能 一 根 都 拿 不 到 。 只 有 在 他 拿 到 两 根 簧 子 时 , 方 能 进餐 ,进餐 完 后 , 放 
下 筷子 又 继续 思考 。 


8.2.1 练习 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1 一 实验 6。 请 把 已 做 的 实验 1 一 实验 6 的 代码 填 入 本 实验 的 代码 中 
有 labl、lab2、lab3、lab4、lab5、lab6 的 注释 相应 部 分 。 并 确保 编译 通过 。 

注意 : 为 了 能 够 正确 执行 lab7 的 测试 应 用 程序 ,可 能 需 对 已 完成 的 实验 1 一 实验 6 的 
代码 进行 进一步 改进 。 

练习 1: 理解 内 核 级 信号 量 的 实现 和 基于 内 核 级 信号 量 的 哲学 家 就 餐 问 题 ( 不 需要 
编码 ) 。 

°. 160。 


完成 练习 0 后 ,建议 大 家 比较 一 下 (可 用 kdiff3 等 文件 比较 软件 ) 个 人 完成 的 lab6 和 练 
习 0 完成 后 的 刚 修 改 的 lab7 之 间 的 区 别 , 分 析 了 解 lab7 采用 信号 量 的 执行 过 程 。 执 行 
make grade, 大 部 分 测试 用 例 应 该 通过 。 

练习 2: 完成 内 核 级 条 件 变量 和 基于 内 核 级 条 件 变 量 的 哲学 家 就 餐 问题 (需要 
编码 ) 。 

首先 掌握 管 程 机 制 , 然 后 基于 信号 量 实现 完成 条 件 变 量 实现 ,然后 用 管 程 机 制 实 现 哲学 
家 就 餐 问题 的 解决 方案 (基于 条 件 变量 ) 。 

执行 : make grade。 如 果 所 显示 的 应 用 程序 检测 都 输出 ok, 则 基本 正确 。 如 果 只 是 某 
程序 过 不 去 ,比如 matrix. c, 则 可 执行 make run-matrix 命令 来 单独 调试 它 。 大 致 执行 结果 
可 看 附录 A( 使 用 的 是 demu-1. 0.1). 

扩展 练习 Challenge: 实现 Linux 的 RCU。 

在 ucore 下 实现 下 Linux 的 RCU 同步 互 斥 机 制 。 可 阅读 相关 Linux 内 核 书籍 或 查询 
网 上 资料 ,可 了 解 RCU 的 细节 ,然后 大 致 实现 在 ucore 中 。 下 面 是 一 些 参考 资料 ; 

(1) http://www. ibm. com/developerworks/cn/linux/l-rcu/。 


(2) http://www. diybl. com/course/6_system/linux/Linuxjs/20081117/151814. html, 


8.2.2 项 目 组 成 


此 次 实验 中 ,主要 有 如 图 8-1 所 示 的 一 些 需 要 关注 的 文件 。 

简单 说 明 如 下 。 

(1) kern/sync/sync. h: 去 除了 lock 实现 (这 对 于 不 抢占 内 核 没 用 ) 。 

(2) kern/syne/wait. [ch]: 定 了 为 wait 结构 和 waitqueue 结构 以 及 在 此 之 上 的 函数 ， 
这 是 ucore 中 的 信号 量 semophore 机 制 和 条 件 变量 机 制 的 基础 ,在 本 次 实验 中 需要 了 解 其 

(3) kern/sync/sem. [ch] :定义 并 实现 了 ucore 中 内 核 级 信号 量 相关 的 数据 结构 和 画 
数 , 本 次 实验 中 需要 了 解 其 中 的 实现 ,并 基于 此 完成 内 核 级 条 件 变量 的 设计 与 实现 。 

(4) user/libs/{syscall. [ch], ulib. [ch]} 5 kern/sync/syscall. c: 实现 了 进程 sleep 相 
关 的 系统 调用 的 参数 传递 和 调用 关系 。 

(5) user/{sleep. c,sleepkill. c} : 进程 睡眠 相关 的 一 些 测 试用 户 程序 。 

(6) kern/sync/monitor. [ch]; 基于 管 程 的 条 件 变 量 的 实现 程序 ,在 本 次 实验 中 是 练习 
的 一 部 分 ,要 求 完 成 。 

(7) kern/syne/check_syne. c: 实现 了 基于 管 程 的 哲学 家 就 餐 问 题 , 在 本 次 实验 中 是 练 
习 的 一 部 分 ,要 求 完成 基于 管 程 的 哲学 家 就 餐 问题 。 

(8) kern/mm/vmm. [ch]: 用 信号 量 mm_sem 取代 mm_ struct 中 原 有 的 mm_lock( 本 
次 实验 不 用 管 ) 。 
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上 一 boot 

上 一 kern 

六 一 driver 

-一 个 

| init 

| libs 

| 一 mm 

上 -一 vmm.c 
L— vmm.h 
| process 

上- 一 proc.c 

上 一 proc.h 
上- 一 Schedule 
— syne 

上 -一 check_sync.c 
| monitor.c 
上 -一 monitor.h 
上 一 sem.c 

上 -一 sem.h 
上 sync.h 
| wait.c 
L— wait.h 
— syscall 

į syscall.c 


— trap 

[-— libs 

— user 

上 一 forktree.c 
t— libs 

| syscall.c 
— syscall.h 
上 -一 ulib.c 

上 -一 ulib.h 


| priority.c 
+—— sleep.c 
t— sleepkill.c 
上 -一 softint.c 
上- 一 spin.c 


图 8-1 目录 文件 结构 图 


8.3 同步 互 斥 的 设计 与 实现 


8.3.1 实验 执行 流程 概述 


互 斥 是 指 某 一 资源 同时 只 允许 一 个 进程 对 其 进行 访问 ,具有 唯一 性 和 排他 性 ,但 互 斥 不 
用 限制 进程 对 资源 的 访问 顺序 , 即 访问 可 以 是 无 序 的 。 同 步 是 指 在 进程 间 的 执行 必须 严格 
按照 规定 的 某 种 先后 次 序 来 运行 , 即 访问 是 有 序 的 ,这 种 先后 次 序 取 决 于 要 系统 完成 的 任务 
需求 。 在 进程 写 资源 情况 下 ,进程 间 要 求 满足 互 斥 条 件 。 在 进程 读 资源 情况 下 ,可 人 允许 多 个 
进程 同时 访问 资源 。 
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实验 7 提供 了 多 种 同步 互 斥 手段 ,包括 中 断 控 制 、 等 待 队列 、 信 号 量 、 管 程 机 制 (包含 条 
件 变量 设计 ) 等 ,并 基于 信号 量 实现 了 哲学 家 问题 的 执行 过 程 ,而 练习 是 要 求 用 管 程 机 制 实 
现 哲学 家 问题 的 执行 过 程 。 在 实现 信号 量 机 制 和 管 程 机 制 时 ,需要 让 无 法 进入 临界 区 的 进 
程 睡眠 ,为 此 在 ucore 中 设计 了 等 待 队列 。 当 进程 无 法 进入 临界 区 ( 即 无 法 获得 信号 量 ) 时 ， 
可 让 进程 进入 等 待 队 列 ,这 时 的 进程 处 于 等 待 状 态 (也 可 称 为 阻塞 状态 ) ,从 而 会 让 实验 6 中 
的 调度 器 选择 一 个 处 于 就 绪 状 态 ( 即 RUNNABLE STATE) 的 进程 ,进行 进程 切换 ,让 新 进 
程 有 机 会 占用 CPU 执行 ,从 而 让 整个 系统 的 运行 更 加 高 效 。 

在 实验 7 中 的 ucore 初始 化 过 程 ,开始 的 执行 流程 都 与 实验 6 相同 ,直到 执行 到 创建 第 
二 个 内 核 线程 init_main 时 ,修改 了 init_main 的 具体 执行 内 容 , 即 增加 了 check_sync 函数 
的 调用 ,而 位 于 lab7/kern/syne/check_syne. c 中 的 check_sync 函数 可 以 理解 为 是 实验 7 的 
起 始 执行 点 ,是 实验 7 的 总 控 函 数 。 进 一 步 分 析 此 函数 ,可 以 看 到 这 个 函数 主要 分 为 两 部 
分 : 第 一 部 分 是 实现 基于 信号 量 的 哲学 家 问题 ,第 二 部 分 是 实现 基于 管 程 的 哲学 家 问题 。 

对 于 check_sync 函数 的 第 一 部 分 ,首先 实现 初始 化 了 一 个 互 斥 信号 量 , 然 后 创建 了 对 
应 5 个 哲学 家 行为 的 5 个 信号 量 , 并 创建 5 个 内 核 线程 代表 5 个 哲学 家 ,每 个 内 核 线程 完成 
了 基于 信号 量 的 哲学 家 吃饭 .睡觉 .思考 行为 实现 。 这 部 分 是 给 学 生 作为 练习 参考 用 的 。 学 
生 可 以 看 看 信号 量 是 如 何 实现 的 ,已 经 如 何 利用 信和 号 量 完成 哲学 家 问题 。 

对 于 check_sync 函数 的 第 二 部 分 ,首先 初始 化 了 管 程 ,然后 又 创建 了 5 个 内 核 线 程 代 
表 5 个 哲学 家 ,每 个 内 核 线程 要 完成 基于 管 程 的 哲学 家 吃饭 、 睡 觉 \ 思 考 行为 实现 。 这 部 分 
需要 学 生来 具体 完成 。 学 生 需 要 掌握 如 何 用 信和 号 量 来 实现 条 件 变量 ,以 及 包含 条 件 变量 的 
管 程 如 何 确保 哲学 家 能 够 正常 思考 和 吃饭 。 


8.3.2 同步 互 斥 的 底层 支撑 


1. 开关 中 断 

根据 操作 系统 原理 的 知识 ,我 们 知道 如 果 没 有 在 硬件 级 保证 读 内 存 一 修改 值 一 写 回 内 
存 的 原子 性 ,我 们 只 能 通过 复杂 的 软件 来 实现 同步 互 斥 操作 。 但 由 于 有 开关 中 断 和 test_ 
and_set_bit 等 原子 操作 机 器 指令 的 存在 ,使 得 我 们 在 实现 同步 互 斥 原 语 上 可 以 大 大 简化 。 
在 atomic. c 文件 中 实现 的 test_and_set_bit 等 原子 操作 。 

在 ucore 中 提供 的 底层 机 制 包括 中 断 开关 控制 和 test_and_set 相关 原子 操作 机 器 指 
今 。kern/sync.c 中 实现 的 开关 中 断 的 控制 函数 local_intr_save(x) 和 local_intr_restore 
(x) ,它们 是 基于 kern/driver 文件 下 的 intr_enable() ,intr_disable() 函 数 实 现 的。 具体 调用 
关系 为 如 下 : 

关中 断 : local intr save--> intr save-->intr disable-->cli 

开 中 断 : local intr restore--> intr restore--> intr enable-->sti 

最 终 的 cli 和 sti 是 x86 的 机 器 指令 ,它们 实现 了 关中 断 和 开 中 断 , 即 设置 了 eflags 寄存 
器 中 与 中 断 相 关 的 位 。 通 过 关闭 中 断 , 可 以 防止 对 当前 执行 的 控制 流 被 其 他 中 断 事 件 处 理 
所 打 断 。 既 然 不 能 中 断 , 那 也 就 意味 着 在 内 核 运行 的 当前 进程 无 法 被 打 断 或 被 重新 调度 , 即 
实现 了 对 临界 区 的 互 斥 操作 。 所 以 在 单 处 理 器 情况 下 ,可 以 通过 开关 中 断 实现 对 临界 区 的 
互 斥 保护 ,需要 互 斥 的 临界 区 代码 的 一 般 写 法 如 下 : 
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local intr save (intr flag); 
{ 
临界 区 代码 
} 
local intr restore (intr flag); 


由 于 目前 ucore 只 实现 了 对 单 处 理 器 的 支持 ,所 以 通过 这 种 方式 ,就 可 简单 地 支撑 互 斥 
操作 了 。 在 多 处 理 器 情况 下 ,这 种 方法 是 无 法 实现 互 斥 的 ,因为 屏蔽 了 一 个 CPU 的 中 断 ， 
只 能 阻止 本 CPU 上 的 进程 不 会 被 中 断 或 调度 ,并 不 意味 着 其 他 CPU 上 执行 的 进程 不 能 执 
行 临界 区 的 代码 。 所 以 ,开关 中 断 只 对 单 处 理 器 下 的 互 斥 操作 起 作用 。 在 本 实验 中 ,开关 中 
断 机 制 是 实现 信号 量 等 高 层 同 步 互 斥 原 语 的 底层 支撑 基础 之 一 。 

2. 等 待 队列 

到 目前 为 止 ,我 们 的 实验 中 ,用 户 进程 或 内 核 线程 还 没有 睡眠 的 支持 机 制 。 在 课程 中 提 
到 用 户 进程 或 内 核 线程 可 以 转 入 休眠 状态 以 等 待 某 个 特定 事件 , 当 该 事件 发 生 时 这 些 进程 
能 够 被 再 次 唤醒 。 内 核实 现 这 一 功能 的 一 个 底层 支撑 机 制 就 是 等 待 队列 (wait queue) , 等 
待 队列 和 每 一 个 事件 (睡眠 结束 时钟 到 达 、 任 务 完 成 .资源 可 用 等 ) 联 系 起 来 。 需 要 等 待 事 
件 的 进程 在 转 入 休眠 状态 后 插入 到 等 待 队 列 中 。 当 事件 发 生 之 后 ,内 核 遍 历 相应 等 待 队列 ， 
唤醒 休眠 的 用 户 进 程 或 内 核 线程 ,并 设置 其 状态 为 就 绪 状 态 (runnable state) ,并 将 该 进程 
从 等 待 队 列 中 清除 。ucore 在 kern/sync/ {wait. h, wait. c} 中 实现 了 wait 结构 和 wait queue 
结构 以 及 相关 函数 ,这 是 实现 ucore 中 的 信号 量 机 制 和 条 件 变 量 机 制 的 基础 ,进入 wait 
queue 的 进程 会 被 设 为 睡眠 状态 ,直到 它们 被 唤醒 。 


typedef struct { 
struct proc_struct * proc; // 等 待 进程 的 指针 
uint32 t wakeup flags; // 进 程 被 放 入 等 待 队 列 的 原因 标记 
wait queue tx wait queue; // 指 向 此 we 让 结构 所 属于 的 wait queue 
list entry t wait link; // 用 来 组 织 wait_queve 中 wait 节 点 的 连接 
} wait t; 
typedef struct { 
list entry t wait_head; /wait queue 的 队 头 
} wait_queue t; 
ledwait (le, menber) /实现 waitt 中 成 员 的 指针 向 wait t 指针 的 转化 


与 wait 和 wait queue 相关 的 函数 主要 分 为 两 层 , 底 层 图 数 是 对 wait queue 的 初始 化 、 
插入 、 删 除 和 查找 操作 ,相关 函数 如 下 : 


void wait init wait t* wait, struct proc struct * proc); // 初 始 化 wait 结构 
bool wait in qew (wait tx wait); /na 让 是 否 在 等 待 队列 queve 中 
void wait queue init (wait queue t* queve); // 初 始 化 wait_queue 结 构 
widwit qee adiait qee tx qae, wit tx wit); // 把 wait 前 插 到 wait queue 中 
void wait qee del (wait qee tx queuey wit tx wit); // 从 wait queue 中 删除 wait 
wait tx wait queue next (wait queue t* queue, wait tx wait); 

// 取 得 wat 的 后 一 个 链接 指针 
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wait t* wait queue prev(wait queue 七 * queue, wait tx wait); 

// 取 得 wait 的 前 一 个 链接 指针 
wait t* wait qeu first ait queue tx queue); // 取 得 wait quene 的 第 一 个 wait 
wait tx wait qeue last (wait_queue tx queue); // 取 得 wait queue 的 最 后 一 个 wait 
bool wait queue empty(wait queue tx queue); /wait queue 是 否 为 空 


高 层 函 数 基于 底层 函数 实现 了 让 进程 进入 等 待 队列 ,以 及 从 等 待 队 列 中 唤醒 进程 ,相关 
函数 如 下 : 


// 让 wait 与 进程 关联 , 且 让 当前 进程 关联 的 wait 进入 等 待 队 列 queue, 当 前 进程 睡眠 
void wait current set (wait_queue t* queve, wait tx wait, uint32 t wait state); 

// 把 与 当前 进程 关联 的 wait 从 等 待 队列 queue 中 删除 

wait current del (queve, wait); 

/唤醒 与 we 让 关联 的 进程 

void wakeup wait (wait_queue t* queve, wait t* wait, uint32_t wakeup flags, bool œl); 
/唤醒 等 待 队列 上 挂 着 的 第 一 个 wait 所 关联 的 进程 

void wakeup first (wait queue t* queue, uint32_t wakeup flags, bool del); 

/人 唤醒 等 待 队列 上 所 有 的 等 待 的 进程 

void wakeup queue (wait queue t* queue, uint32_t wakeup flags, bool del); 


8.3.3 信号 量 


信号 量 是 一 种 同步 互 斥 机 制 的 实现 ,普遍 存在 于 现在 的 各 种 操作 系统 内 核 里 。 相 对 于 
spinlock 的 应 用 对 象 ,信号 量 的 应 用 对 象 是 在 临界 区 中 运行 的 时 间 较 长 的 进程 。 等 待 信号 
量 的 进程 需要 睡眠 来 减少 占用 CPU 的 开销 。 参考 教 科 书 “Operating Systems Internals 
and Design Principles” 第 5 章 * 同 步 互 斥 " 中 对 信号 量 实现 的 原理 性 描述 ， 


struct semaphore { 
int count; 
queueType queue; 
F 
void senWait (semaphore s) 
{ 
s.count-- ; 
if (s.count< 0) { 
/* place this process in s.queue* /; 
/* block this process * /; 
} 
} 
void samSignal (semaphore s) 
{ 
s.count+ + 7 
if (s.count<=0) { 
/* remove a process P from s.queue* /; 
/* place process P on ready list * /; 
} 
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程 会 由 于 无 法 满足 信号 量 设置 的 某 条 件 而 在 某 一 位 置 停止 ,直到 它 接收 到 一 个 特定 的 信号 
(表明 条 件 满足 了 )。 为 了 发 信号 ,需要 使 用 一 个 称 为 信号 量 的 特殊 变量 。 为 通过 信号 量 s 
传送 信号 ,信号 量 的 V 操作 采用 进程 可 执行 原 语 semSignal(s) ;为 通过 信号 量 s 接收 信号， 
信号 量 的 P 操作 采用 进程 可 执行 原 语 semWait(s) ;如 果 相 应 的 信号 仍然 没有 发 送 , 则 进程 
被 阻塞 或 睡眠 ,直到 发 送 完 为 止 。 

ucore 中 信和 号 量 参照 上 述 原 理 描述 ,建立 在 开关 中 断 机 制 和 wait queue 的 基础 上 进行 
了 具体 实现 。 信 号 量 的 数据 结构 定义 如 下 : 


typedef struct { 

int value; // 信 号 量 的 当前 值 

wait queue t wait queue; // 信 号 量 对 应 的 等 待 队列 
} semaphore t; 


semaphore_t 是 最 基本 的 记录 型 信号 量 (record semaphore) 结 构 , 包 含 了 用 于 计数 的 整 
BUA value 和 一 个 进程 等 待 队列 wait_queue, 一 个 等 待 的 进程 会 挂 在 此 等 待 队 列 上 。 

在 ucore 中 最 重要 的 信号 量 操作 是 P 操作 函数 down(semaphore_t * sem) 和 VV 操作 函 
数 up(semaphore_t * sem)。 但 这 两 个 函数 的 具体 实现 是 __down(semaphore_t * sem, 
uint32_t wait_state) 函数 和 __up(semaphore_t * sem, uint32_t wait_state) ARM. WA WA 
体 实现 描述 如 下 。 

(1) __down(semaphore_t * sem, uint32_t wait_state. timer_t * timer): 具体 实现 信 
号 量 的 P 操 作 , 首 先 关 掉 中 断 ,然后 判断 当前 信号 量 的 value 是 否 大 于 0。 如 果 是 大 于 0, 则 
表明 可 以 获得 信号 量 , 故 让 value 减 1, 并 打开 中 断 返回 即 可 ;如 果 不 是 大 于 0, 则 表明 无 法 
获得 信号 量 , 故 需 要 将 当前 的 进程 加 入 到 等 待 队列 中 ,并 打开 中 断 , 然 后 运行 调度 器 选择 另 
外 一 个 进程 执行 。 如 果 被 V 操作 唤醒 , 则 把 自身 关联 的 wait 从 等 待 队 列 中 删除 (此 过 程 需 
要 先 关中 断 ,完成 后 开 中 断 ) 。 具 体 实现 如 下 : 


static noinline uint32 t down (semaphore tx sem,uint32_t wait state) { 
bool intr flag; 
local intr save(intr flag); 
if (sam >value> 0) { 
sa > value--; 
local_intr_restore (intr flag); 
retum 0; 
} 
wait t __wait, * wait=& wait; 
wait current set (&(sem- >wait_queue), wait, wait state); 
local intr restore (intr flag); 
schedule () 7 
local intr save(intr flag); 
wait current del (&(sem- > wait_queue), wait); 
local intr restore(intr flag); 
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if wait- > wakeup flags !=wait state) { 
retum wait- > wakeup flags; 
} 
retum 0; 
} 


(2) __up(semaphore_t * sem, uint32_t wait_state): 具体 实现 信号 量 的 V 操作 ,首先 
关中 断 , 如 果 信 号 量 对 应 的 wait queue 中 没有 进程 在 等 待 ,直接 把 信号 量 的 value 加 1, 然后 
开 中 断 返 回 ;如 果 有 进程 在 等 待 且 进程 等 待 的 原因 是 semophore 设置 的 , 则 调用 wakeup_ 
wait 函数 将 waitqueue 中 等 待 的 第 一 个 wait 删除 , 且 把 此 wait 关联 的 进程 唤醒 ,最 后 开 中 
断 返 回 。 具 体 实现 如 下 : 


static noinline void__up(semaphore tx sem, uint32_t wait_state) { 
bool intr flag; 
local intr save(intr flag); 
{ 
wait tx wait; 
if ((wait=wait queue first (&(sem->wait_queve)))==NULL) { 
sew > valuet+ + ; 
} 
else { 
wakeup wait (& (sem- > wait queus), wait, wait state, 1); 
} 
} 
local intr restore (intr flag); 

} 

对 照 信号 量 的 原理 性 描述 和 具体 实现 ,可 以 发 现 两 者 在 流程 上 基本 一 致 ,只 是 具体 实现 
采用 了 关中 断 的 方式 保证 了 对 共享 资源 的 互 斥 访问 ,通过 等 待 队 列 让 无 法 获得 信号 量 的 进 
程 睡 眠 等 待 。 另 外 ,我们 可 以 看 出 信号 量 的 计数 器 value 具有 如 下 人 性质 。 

O value 二 0 ,表示 共享 资源 的 空闲 数 。 

© vlaue 三 0, 表示 该 信号 量 的 等 待 队 列 里 的 进程 数 。 

O value 二 0, 表 示 等 待 队 列 为 空 。 


8.3.4 管 程 和 条 件 变量 


引入 了 管 程 是 为 了 将 对 共享 资源 的 所 有 访问 及 其 所 需要 的 同步 操作 集中 并 封装 起 来 。 
Hansan 为 管 程 所 下 的 定义 :“ 一 个 管 程 定义 了 一 个 数据 结构 和 能 为 并 发 进程 所 执行 (在 该 
数据 结构 上 ) 的 一 组 操作 ,这 组 操作 能 同步 进程 和 改变 管 程 中 的 数据 *"。 有 上 述 定义 可 知 , 管 
程 由 4 部 分 组 成 。 

(1) 管 程 内 部 的 共享 变量 。 

(2) 管 程 内 部 的 条 件 变量 。 

(3) 管 程 内 部 并 发 执行 的 进程 。 

(4) 对 局 限 在 管 程 内 部 的 共享 数据 设置 初始 值 的 语句 。 
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局 限 在 管 程 中 的 数据 结构 ,只 能 被 局 限 在 管 程 的 操作 过 程 所 访问 ,任何 管 程 之 外 的 操作 
过 程 都 不 能 访问 它 ; 另 一 方面 ,局 限 在 管 程 中 的 操作 过 程 也 主要 访问 管 程 内 的 数据 结构 。 由 
此 可 见 , 管 程 相当 于 一 个 隔离 区 , 它 把 共享 变量 和 对 它 进 行 操作 的 若干 个 过 程 围 了 起 来 ,所 
有 进程 要 访问 临界 资源 时 ,都 必须 经 过 管 程 才 能 进入 ,而 管 程 每 次 只 允许 一 个 进程 进入 管 
程 , 从 而 需要 确保 进程 之 间 互 斥 。 

但 在 管 程 中 仅仅 有 互 斥 操作 是 不 够 用 的 。 进 程 可 能 需要 等 待 某 个 条 件 C 为 真 才能 继 
续 执 行 。 如 果 采 用 忙 等 (busy waiting) st: 


while not(C ) do{} 


在 单 处 理 器 情况 下 ,将 会 导致 所 有 其 他 进程 都 无 法 进入 临界 区 使 得 该 条 件 C 为 真 ,该 
管 程 的 执行 将 会 发 生死 锁 。 为 此 ,可 引入 条 件 变量 (Condition Variables,CV)。 一 个 条 件 变 
量 CV 可 理解 为 一 个 进程 的 等 待 队 列 ,队列 中 的 进程 正 等 待 某 个 条 件 C 变 为 真 。 每 个 条 件 
变量 关联 着 一 个 断言 Pc。 当 一 个 进程 等 待 一 个 条 件 变 量 , 该 进程 不 算 作 占用 了 该 管 程 , 因 
而 其 他 进程 可 以 进入 该 管 程 执行 ,改变 管 程 的 状态 ,通知 条 件 变量 CV 其 关联 的 断言 Pe 在 
当前 状态 下 为 真 。 因 此 对 条 件 变量 CV 有 两 种 主要 操作 。 
O wait_cv: 被 一 个 进程 调用 ,以 等 待 断言 Pe 被 满足 后 该 进程 可 恢复 执行 . 进程 挂 在 
该 条 件 变量 上 等 待 时 ,不 被 认为 是 占用 了 管 程 。 
@ signal_cv: 被 一 个 进程 调用 ,以 指出 断言 Pe 现在 为 真 ,从 而 可 以 唤醒 等 待 断言 Pc 被 
满足 的 进程 继续 执行 。 
有 了 互 斥 和 信号 量 支 持 的 管 程 就 可 用 于 解决 各 种 同步 互 斥 问题 。 比 如 参考 OS 
Concept 一 书 中 的 6.7. 2 节 “ 用 管 程 解决 哲学 家 就 餐 问题 "就 给 出 了 这 样 的 事例 : 
monitor dp 
{ 
enum{ THINKING, HUNGRY, EATING}state [5] ; 
condition self [5]; 


void pickyp(int i) { 
state [i]= HUNGRY; 
test (i); 
if (state[i] != EATING) 

self [i] .wait (); 

} 

void putdown (int i) { 
state [i]= THINKING; 
test ((i+ 4)% 5); 
test ((i+ 1% 5)); 

} 


void test (int i) { 
if (state[ (i+ 4)% 5] != EATING) && 
(state [i]== HUNGRY) && 
(state[ (i+ 1)% 5] != EATING) { 
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state [i]= EATING; 
self [i] signal (); 
} 
} 
initialization code() { 
for (int i=0;i< 5; i++) 
state [i]= THINKING; 


} 


虽然 大 部 分 教科 书 上 说 明 管 程 适合 在 语言 级 实现 ,比如 Java 等 高 级 语言 ,没有 提 及 在 
采用 C 语言 的 OS 中 如 何 实现 。 下 面 我 们 将 要 尝试 在 ucore 中 用 C 语言 实现 采用 基于 互 斥 
和 条 件 变量 机 制 的 管 程 基本 原理 。 

ucore 中 的 管 程 机 制 是 基于 信号 量 和 条 件 变量 来 实现 的 。ucore 中 的 管 程 的 数据 结构 
monitor_t 定义 如 下 : 


typedef struct monitor{ 
semaphore t mutex; //the mutex lock for going into the routines in monitor, should be initialized 
tol 
semaphore t next; //the next semaphore is used to down the signaling proc itself, and the other 
OR wakeuped 
//waiting proc should wake up the sleeped signaling proc. 
int next_count; //the nnter of sleeped signaling proc 
condvar_t* cv; //the condvars in monitor 
} monitor t; 


管 程 中 的 成 员 变 量 mutex 是 一 个 二 值 信号 量 ,是 实现 每 次 只 允许 一 个 进程 进入 管 程 的 
关键 元 素 ,确保 了 互 斥 访问 性 质 。 管 程 中 的 条 件 变量 cv 通过 执行 wait_cv, 会 使 得 等 待 某 个 
条 件 C 为 真 的 进程 能 够 离开 管 程 并 睡眠 , 且 让 其 他 进程 进入 管 程 继续 执行 ;而 进入 管 程 的 
某 进程 设置 条 件 C 为 真 并 执行 signal_ev 时 ,能 够 让 等 待 某 个 条 件 C 为 真 的 睡眠 进程 被 唤 
醒 , 从 而 继续 进入 管 程 中 执行 。 管 程 中 的 成 员 变量 信号 量 next 和 整 型 变量 next_count 是 
配合 进程 对 条 件 变量 cv 的 操作 而 设置 的 ,这 是 由 于 发 出 signal_cv 的 进程 A 会 唤醒 睡眠 进 
程 B, 进 程 执行 会 导致 进程 A 睡眠 ,直到 进程 了 B 离 开 管 程 , 进 程 A 才能 继续 执行 ,这 个 同步 
过 程 是 通过 信号 量 next 完成 的 ;而 next_count 表示 了 由 于 发 出 singal_cv 而 睡眠 的 进程 个 数 。 

管 程 中 的 条 件 变量 的 数据 结构 condvar_t 定义 如 下 : 


typedef struct condvar{ 
semaphore t san; //the sem semaphore is used to down the waiting proc, and the signaling proc 
should up the waiting proc 
int count; //the number of waiters on condvar 
monitor t* owner; //the owner (monitor) of this condvar 
} condvar_t; 


条 件 变量 的 定义 中 也 包含 了 一 系列 的 成 员 变量 ,信号 量 sem 用 于 让 发 出 wait_cv 操作 
的 等 待 某 个 条 件 C 为 真 的 进程 睡眠 ,而 让 发 出 signal_cv 操作 的 进程 通过 这 个 sem 来 唤醒 
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睡眠 的 进程 。count 表示 等 在 这 个 条 件 变量 上 的 睡眠 进程 的 个 数 。owner 表示 此 条 件 变 量 
的 宿主 是 哪个 管 程 。 

理解 数据 结构 的 含义 后 ,就 可 以 开始 管 程 的 实现 。ucore 设计 实现 了 条 件 变量 wait_cv 
操作 和 signal_cv 操作 对 应 的 具体 函数 . 即 cond_wait 函数 和 cond_signal 函数 ,此 外 还 有 
cond_init 初始 化 函数 (可 直接 看 源码 )。 函 数 cond_wait(condvar_t * cvp, semaphore_t * mp) 
和 cond_signal (condvar_t * cvp) 的 实现 原理 可 参考 OS Concept 一 书 中 的 6.7. 3 节 “ 用 信 
号 量 实 现 管 程 ” 的 内 容 。 


cond_wait 的 原理 描述 Cond_signal 的 原理 描述 
cv.count+ + ; if( cv.count> 0) { 
if (monitor.next_count> 0) monitor.next_count+ +; 
sæ signal (ronitor.next) ; sem_signal (cv.sem) ; 
else sam wait (monitor.next) ; 
sem_signal (monitor mutex) ; monitor .next_count- - ; 
Sem wait (cv.sem) ; } 
cv.count- - ; 


简单 分 析 一 下 cond_wait 函数 的 实现 。 可 以 看 出 如 果 进 程 A 执行 了 cond_wait 函数 ， 
表示 此 进程 等 待 某 个 条 件 C 不 为 真 ,需要 睡眠 。 因 此 表示 等 待 此 条 件 的 睡眠 进程 个 数 
cv. count 要 加 1。 接 下 来 会 出 现 两 种 情况 。 

情况 一 : 如 果 monitor. next_count 大 于 0, 表 示 有 大 于 等 于 1 个 进程 执行 cond_signal 
函数 上 且 睡 着 了 ,就 睡 在 monitor. next 信号 量 上 。 假 定 这 些 进 程 形成 S 进程 链表 。 因 此 需要 
唤醒 S 进程 链表 中 的 一 个 进程 B。 然 后 进程 A 睡 在 cv. sem 上 ,如 果 睡 醒 了 , 则 让 
ev. count 减 1 ,表示 等 待 此 条 件 的 睡眠 进程 个 数 少 了 一 个 ,可 继续 执行 了 ! 这 里 隐 含 这 一 个 
现象 , 即 某 进 程 A 在 时 间 顺 序 上 先 执行 了 signal_cv, 而 另 一 个 进程 B 后 执行 了 wait_cv, 这 
会 导致 进程 A 没有 起 到 唤醒 进程 B 的 作用 。 这 里 还 隐藏 这 一 个 问题 ,在 cond_wait 有 sem_ 
signal(mutex) ,但 没有 看 到 哪里 有 sem_wait(mutex), 这 好 像 没有 成 对 出 现 , 是 否 是 错误 
的 ? 其 实在 管 程 中 的 每 一 个 函数 的 入 口 处 会 有 wait(mutex) ,这 样 两 者 就 配 好 对 了 。 

情况 二 : 如 果 monitor. next_count 小 于 等 于 0, 表示 目前 没有 进程 执行 cond_signal PK 
数 且 睡 着 了 , 那 需要 唤醒 的 是 由 于 互 斥 条 件 限 制 而 无 法 进入 管 程 的 进程 ,所 以 要 唤醒 睡 在 
monitor. mutex 上 的 进程 。 然 后 进程 A 睡 在 cv. sem 上 ,如 果 睡 醒 了 , 则 让 cv. count 减 1, 表 
示 等 待 此 条 件 的 睡眠 进程 个 数 少 了 一 个 ,可 继续 执行 。 

对 照 着 再 来 看 cond_signal 的 实现 。 首 先进 程 B 判断 cv. count, 如 果 不 大 于 0, 则 表示 
当前 没有 执行 cond_wait 而 睡眠 的 进程 ,因此 就 没有 被 唤醒 的 对 象 了 ,直接 函数 返回 即 可 ， 
如 果 大 于 0, 这 表示 当前 有 执行 cond_wait 而 睡眠 的 进程 A, 因 此 需要 唤醒 等 待 在 cv. sem 上 
睡眠 的 进程 A。 由 于 只 允许 一 个 进程 在 管 程 中 执行 ,所 以 一 旦 进程 了 唤醒 了 别人 (进程 A)， 
那么 自己 就 需要 睡眠 。 故 让 monitor. next_count 加 1, 且 让 自己 (进程 B) 睡 在 信号 量 
monitor. next 上 。 如 果 睡 醒 了 ,这 让 monitor. next_count Ja 1 。 

为 了 让 整个 管 程 正常 运行 ,还 需 在 管 程 中 的 每 个 函数 的 入 口 和 出 口 增 加 相关 操作 , 即 : 

function (…) 
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{ 
sem.wait (monitor.mutex) ; 


the real body of function; 


if (monitor.next_count> 0) 
sem_signal (monitor .next) ; 
else 
sem_signal (monitor .mutex) ; 

} 

这 样 带 来 的 作用 有 两 个 。 

(1) 只 有 一 个 进程 在 执行 管 程 中 的 函数 。 

(2) 避免 由 于 执行 了 cond_signal 函数 而 睡眠 的 进程 无 法 被 唤醒 。 对 于 第 (2) 点 ,如 果 
进程 A 由 于 执行 了 cond_signal 函数 而 睡眠 (这 会 让 monitor, next_count 大 于 0, 且 执行 
sem_wait(monitor. next)), 则 其 他 进程 在 执行 管 程 中 的 函数 的 出 口 ,会 判断 monitor. next_ 
count 是 否 大 于 0, 如 果 大 于 0, 则 执行 sem_signal(monitor. next) ,从 而 执行 了 cond_signal 
函数 而 睡眠 的 进程 被 唤醒 。 上 述 措施 将 使 得 管 程 正常 执行 。 

需要 注意 的 是 ,上 述 只 是 原理 描述 ,与 具体 描述 相 比 ,还 有 一 定 的 差距 。 需 要 大 家 在 完 
成 练习 时 仔细 设计 和 实现 。 


8.4 实验 报告 要 求 


从 网 站 上 下 载 lab7. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab? ,完成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab7- 
handin. tar. gz。 最 后 请 一 定 提前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab? 的 注释 ,主要 是 修改 condvar. c 和 check_sync. c 中 的 内 容 。 代 码 中 所 有 需 
要 完成 的 地 方 (Challenge 除外 ) 都 有 lab7 Fl Your Code” 的 注释 ,请 在 提交 时 特别 注意 保持 
注释 ,并 将 “Your Code” 替 换 为 自己 的 学 号 ,并 且 将 所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 
代码 。 


辅助 材料 A ”执行 make run-matrix 大 致 的 显示 输出 


(THU.CST) os is loading... 
check_alloc_page() succeeded! 


check_swap() succeeded! 
++ setup timer interrupts 
I am No.4 philosopher condvar 
Iter 1, No.4 philosopher condvar is thinking 
I am No.3 philosopher condvar 
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I am No.1 philosopher sara 

Tter 1, No.1 philosopher sema is thinking 

I am No.0 philosopher sama 

Iter 1, No.0 philosopher sem is thinking 

kemel execve: pid=2, name= "matrix". 

pid 14 is running (1000 times) !. 

pid 13 is nmirg (1000 times) !. 

Fhi test condvar: state _condvar[4] will eating 
phi_test_condvar: signal self cv[4] 

Iter 1, No.4 philosopher condvar is eating 
phi_take forks condvar: 3 didn't get fork and will wait 
phi_test_condvar: state_condvar[2] will eating 
phi_test_oondvar: signal self cv[2] 

Iter 1, No.2 philosopher _condvar is eating 

pi take forks condvar: 1 didn't get fork and will wait 
pi _take forks condvar: 0 didn't get fork and will wait 
pid 14 done!. 

pid 13 done!. 

Iter 1, No.4 philosopher sama is eating 

Iter 1, No.2 philosopher sama is eating 


pid 18 dome! . 

pid 23 done! . 

pid 22 done!. 

pid 33 done!. 

pid 27 done!. 

pid 25 done!. 

pid 32 done!. 

pid 29 done! . 

pid 20 done! . 

matrix pass. 

all user- mode processes have quit. 
init check memory pass. 

kemel panic at kem/process/proc.c:426: 


initproc exit. 
Welcome to the kemel debug monitor!! 


Type ‘help’ for a list of cammands. 
K> qı: terminating on signal 2 
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第 9 章 实验 8: 文件 系统 


9.1 实验 目的 


通过 完成 本 次 实验 ,希望 能 达到 以 下 目标 。 

(1) 了 解 基本 的 文件 系统 系统 调用 的 实现 方法 。 

(2) 了 解 一 个 基于 索引 节点 组 织 方式 的 Simple FS 文件 系统 的 设计 与 实现 。 
(3) 了 解 文件 系统 抽象 层 一 一 VFS 的 设计 与 实现 。 


9.2 实验 内 容 


实验 7 完成 了 在 内 核 中 的 同步 互 斥 实验 。 本 次 实验 涉及 的 是 文件 系统 ,通过 分 析 了 
解 ucore 文件 系统 的 总 体 架构 设计 ,完善 读 写 文件 操作 ,从 新 实现 基于 文件 系统 的 执行 程 
序 机 制 ( 即 改写 do_execve) ,从 而 可 以 完成 执行 存储 在 磁盘 上 的 文件 和 实现 文件 读 写 等 
功能 。 


9.2.1 练习 


练习 0: 填写 已 有 实验 。 

本 实验 依赖 实验 1 一 实验 7。 请 把 已 做 的 实验 1 一 实验 7 的 代码 填 人 本 实验 中 代码 中 
有 labl、lab2、lab3、lab4、lab5、lab6、lab7 的 注释 相应 部 分 ,并 确保 编译 通过 。 注意: 为 了 能 
够 正确 执行 lab8 的 测试 应 用 程序 ,可 能 需 对 已 完成 的 实验 1 一 实验 7 的 代码 进行 进一步 
改进 。 

练习 1: 完成 读 文件 操作 的 实现 (需要 编码 ) 。 

首先 了 解 打开 文件 的 处 理 流 程 , 然 后 参考 本 实验 后 续 的 文件 读 写 操作 的 过 程 分 析 , 编 写 
在 sfs_inode. c 中 sfs_io_nolock 读 文 件 中 数据 的 实现 代码 。 

练习 2: 完成 基于 文件 系统 的 执行 程序 机 制 的 实现 (需要 编码 ) 。 

改写 proc. c 中 的 load_icode 函数 和 其 他 相关 函数 ,实现 基于 文件 系统 的 执行 程序 机 
制 。 执 行 : make qemu。 如 果 能 看 看 到 sh 用 户 程序 的 执行 界面 , 则 基本 成 功 了 。 如 果 在 sh 
用 户 界面 上 可 以 执行 ls,hello 等 其 他 放置 在 sfs 文件 系统 中 的 其 他 执行 程序 , 则 可 以 认为 本 
实验 基本 成 功 (使 用 的 是 qemu-1.0.1)。 


9.2.2 项 目 组 成 
项 目 文件 组 成 如 图 9-1 所 示 。 


“ 173 » 


devs 

dev.c 
dev_disk0.c 
dev.h 
dev_stdin.c 
dev_stdout.c 


file.c 
H~ file.h 
fs.c 
fs.h 
iobuf.c 
iobuf.h 
sfs 


bitmap.c 
| 一 一 bitmap.h 
sfs.c 

sfs fs.c 
sfs.h 
sfs_inode.c 
sfs_io.c 
sfs_lock.c 
swap 
swapfs.c 
swapfs.h 
sysfile.c 
sysfile.h 

vfs 

inode.c 

| 一 一 inode.h 


H vfs.c 

H visdev.c 
一 一 vfsfile.c 
H vfs.h 
H vfslookup.c 
vfspath.c 


init 
| libs 
stdio.c 
string.c 


| 一 一 mm 


vmm.c 
vmm.h 
— process 
proc.c 
proc.h 


schedule 


图 9-1 项 目 文件 结构 图 
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sync 
syscall 


syscall.c 


trap 
trap.c 


libs 
tools 
mksfs.c 


user 
badarg.c 
badsegment.c 
divzero.c 

exit.c 

faultread.c 
faultreadkernel.c 
forktest.c 
forktree.c 
hello.c 

— libs 


dir.c 
dir.h 
file.c 
file.h 
initcode.S 
lock.h 
stdio.c 
syscall.c 
syscall.h 
ulib.c 
ulib.h 
umain.c 


ls.c 
sh.c 


图 9-1 (2%) 


本 次 实验 主要 是 理解 kern/fs 目录 中 的 部 分 文件 ,并 可 用 user/*.c 测 试 所 实现 的 


Simple FS 文件 系统 是 否 能 够 正常 工作 。 本 次 实验 涉及 的 代码 包括 如 下 。 


(1) 文件 系统 测试 用 例 user/ * .c: 对 文件 系统 的 实现 进行 测试 的 测试 用 例 。 

(2) 通用 文件 系统 接口 。 

©® user/libs/file. [ch]ldir. [ch] | syscall. c; 与 文件 系统 操作 相关 的 用 户 库 实 现 。 

© kern/syscall. [ch]: 文件 中 包含 文件 系统 相关 的 内 核 态 系统 调用 接口 。 

@ kern/fs/sysfile. [ch]| file. [ch]: 通用 文件 系统 接口 和 实现 。 

(3) 文件 系统 抽象 层 一 一 VFS。 

kern/fs/vfs/ * . [ch]: 虚拟 文件 系统 接口 与 实现 。 

(4) Simple FS 文件 系统 。 

kern/fs/sfs/ * . [ch]: SimpleFS 文件 系统 实现 。 

(5) 文件 系统 的 硬盘 1/0 接口 。 

kern/fs/devs/dev. [ch ]|dev_disk0. c: disko 硬盘 设备 提供 给 文件 系统 的 I/O 访问 接口 
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和 实现 。 

(6) 辅助 工具 。 

tools/mksfs. c: 创建 一 个 Simple FS 文件 系统 格式 的 硬盘 镜像 (理解 此 文件 的 实现 细 
节 对 理解 SFS 文件 系统 很 有 帮助 ) 。 

(7) 对 内 核 其 他 模块 的 扩充 。 

@ kern/process/proc. [ch]: 增加 成 员 变 量 struct fs_struct * fs_struct, 用 于 支持 进程 
对 文件 的 访问 ; 重 写 了 do_execve load_icode 等 函数 以 支持 执行 文件 系统 中 的 文件 。 

@ kern/init/init. c: 增加 调用 初始 化 文件 系统 的 函数 fs_init。 


9.3 文件 系统 的 设计 与 实现 


9.3.1 ucore 文 件 系统 总 体 介 绍 


操作 系统 中 负责 管理 和 存储 可 长 期 保存 数据 的 软件 功能 模块 称 为 文件 系统 。 在 本 次 实 
验 中 ,主要 侧重 文件 系统 的 设计 实现 和 对 文件 系统 执行 流程 的 分 析 与 理解 。 

ucore 的 文件 系统 模型 源 于 Havard 的 OS161 的 文件 系统 和 Linux 文件 系统 。 但 其 实 
这 两 者 都 是 源 于 传统 的 UNIX 文件 系统 设计 。UNIX 提出 了 4 个 文件 系统 抽象 概念 : 文件 
Cile) .目录 项 (dentry)、 索 引 节 点 (inode) 和 安装 点 (mount point). 

(1) 文件 : UNIX 文件 中 的 内 容 可 理解 为 是 一 有 序 字 节 buffer, 文 件 都 有 一 个 方便 应 用 
程序 识别 的 文件 名 称 ( 也 称 文件 路 径 名 )。 典 型 的 文件 操作 有 读 、 写 .创建 和 删除 等 。 

(2) 目录 项 : 目录 项 不 是 目录 ,而 是 目录 的 组 成 部 分 。 在 UNIX 中 目录 被 看 做 一 种 特 
定 的 文件 ,而 目录 项 是 文件 路 径 中 的 一 部 分 。 如 一 个 文件 路 径 名 是 “/test/testfile”, 则 包含 
的 目录 项 为 根 目 录 “/”、 目 录 test 和 文件 testfile, 这 三 个 都 是 目录 项 。 一 般 而 言 ,目录 项 包 
含 目 录 项 的 名 字 ( 文 件 名 或 目录 名 ) 和 目录 项 的 索引 节点 ( 见 下 面 的 描述 ) 位 置 。 

(3) 索引 节点 : UNIX 将 文件 的 相关 元 数据 信息 (如 访问 控制 权限 、 大 小 、 拥 有 者 、 创 建 
时 间 数据 内 容 等 信息 ) 存 储 在 一 个 单独 的 数据 结构 中 ,该 结构 称 为 索引 节点 。 

(4) 安装 点 : 在 UNIX 中 ,文件 系统 被 安装 在 一 个 特定 的 文件 路 径 位 置 , 这 个 位 置 就 是 
安装 点 。 所 有 的 已 安装 文件 系统 都 作为 根 文件 系统 树 中 的 叶子 出 现在 系统 中 。 

上 述 抽象 概念 形成 了 UNIX 文件 系统 的 逻辑 数据 结构 ,并 需要 通过 一 个 具体 文件 系统 
的 架构 设计 与 实现 把 上 述 信息 映射 并 储存 到 磁盘 介质 上 。 一 个 具体 的 文件 系统 需要 在 磁盘 
布局 并 实现 上 述 抽象 概念 。 例 如 ,文件 元 数据 信息 存储 在 磁盘 块 中 的 索引 节点 上 。 当 文件 
被 载 人 内 存 时 ,内核 需要 使 用 磁盘 块 中 的 索引 点 来 构造 内 存 中 的 索引 节点 。 

ucore 模仿 了 UNIX 的 文件 系统 设计 ,ucore 的 文件 系统 架构 主要 由 四 部 分 组 成 。 

O 通用 文件 系统 访问 接口 层 : 该 层 提供 了 一 个 从 用 户 空 间 到 文件 系统 的 标准 访问 接口 。 
这 一 层 访问 接口 让 应 用 程序 能 够 通过 一 个 简单 的 接口 获得 ucore 内 核 的 文件 系统 服务 。 

@ 文件 系统 抽象 层 : 向 上 提供 一 个 一 致 的 接口 给 内 核 其 他 部 分 (文件 系统 相关 的 系统 
调用 实现 模块 和 其 他 内 核 功能 模块 ) 访 问 。 向 下 提供 一 个 同样 的 抽象 隐 数 指针 列表 和 数据 
结构 屏蔽 不 同文 件 系统 的 实现 细节 。 

@ Simple FS 文件 系统 层 : 一 个 基于 索引 方式 的 简单 文件 系统 实例 。 向 上 通过 各 种 具 
体 函 数 实现 以 对 应 文件 系统 抽象 层 提 出 的 抽象 函数 ,向 下 访问 外 设 接口 。 

© 外 设 接 口 层 : 向 上 提供 device 访问 接口 屏蔽 不 同 硬件 细节 。 向 下 实现 访问 各 种 具 
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体 设备 驱动 的 接口 ,比如 disk 设备 接口 .串口 设备 接口 .键盘 设备 接口 等 。 

对 照 上 面 的 层次 ,我们 再 大 致 介绍 一 下 文件 系统 的 访问 处 理 过 程 ,加 深 对 文件 系统 的 总 
体 理解 。 假 如 应 用 程序 操作 文件 (打开 、 创 建 、 删 除 、 读 写 ) ,首先 需要 通过 文件 系统 的 通用 文 
件 系统 访问 接口 层 给 用 户 空间 提供 的 访问 接口 进入 文件 系统 内 部 ,接着 由 文件 系统 抽象 层 
把 访问 请 求 转发 给 某 一 具体 文件 系统 (如 SFS 文件 系统 ) ,具体 文件 系统 (Simple FS 文件 系 
统 层 ) 把 应 用 程序 的 访问 请 求 转化 为 对 磁盘 上 的 block 的 处 理 请 求 , 并 通过 外 设 接口 层 交 给 
磁盘 驱动 例 程 来 完成 具体 的 磁盘 操作 。 结 合用 户 态 写 文件 函数 write 的 整个 执行 过 程 , 可 
以 比较 清楚 地 看 出 ucore 文件 系统 架构 的 层次 和 依赖 关系 ,如 图 9-2 所 示 。 


FS 测试 用 例 ::usr/*.c 


通用 文件 系统 访问 接口 

文件 系统 相关 用 户 库 

用 户 态 文件 系统 相关 系统 调用 访问 接口 
内 核 态 文件 系统 相关 系统 调用 实现 


write::usr/libs/file.c 


sys_write::usr/libs/syscall.c 


syscall::ust/libs/syscall.c 


sys_write::/kern/syscall/syscall.c 


[文件 系统 抽象 层 一 VFS 
A file 接 口 || dir 接口 
inode 接 口 fs 接口 
ae 外 设 接口 
Simple FS 文件 系统 实现 


sfs 的 inode 实 现 sfs 的 人 实现 
sfs 的 外 设 访问 接口 


sysfile_write::/kern/fs/sysfile.c 
file_write::/kern/fs/file.c 
vop_write::/kern/fs/vfs/inode.h 


sfs_write::/kern/fs/sfs/sfs_inode.c 


sfs_wbuf::/kern/fs/sfs/sfs_io.c 


文件 系统 MO 设备 接口 
~y device 访 问 接口 


stdin 设 备 接口 实现 stdout 设 备 接口 实现 
disk 设 备 接口 实现 NULL 设 备 接口 实现 


ide_write_secs::/kern/driver/ide.c SS] 硬盘 驱动 串口 驱动 键盘 驱动 
图 9-2 ucore 文件 系统 总 体 结构 


dop_io::/kern/fs/devs/dev.h 


disk0_io::/kern/fs/devs/dev_disk0.c 


从 ucore 操作 系统 不 同 的 角度 来 看 ,ucore 中 的 文件 系统 架构 包含 四 类 主要 的 数据 结 
构 , 它们 分 别 如 下 。 

(1) RIR (superblock): 它 主要 从 文件 系统 的 全 局 角度 描述 特定 文件 系统 的 全 局 信 
息 。 它 的 作用 范围 是 整个 OS 空间 。 

(2) 索引 节点 (inode) : 它 主 要 从 文件 系统 的 单个 文件 的 角度 描述 文件 的 各 种 属性 和 数 
据 所 在 位 置 。 它 的 作用 范围 是 整个 OS 空间 。 

(3) 目录 项 (dentry): 它 主要 从 文件 系统 的 文件 路 径 的 角度 描述 文件 路 径 中 的 特定 目 
录 。 它 的 作用 范围 是 整个 OS 空间 。 

(4) 文件 (file) : 它 主要 从 进程 的 角度 描述 一 个 进程 在 访问 文件 时 需要 了 解 的 文件 标 
识 ,文件 读 写 的 位 置 ,文件 引用 情况 等 信息 。 它 的 作用 范围 是 某 一 具体 进程 。 
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如 果 一 个 用 户 进程 打开 了 一 个 文件 ,那么 在 ucore 中 涉及 的 相关 数据 结构 (其 中 相关 数 
据 结构 将 在 下 面 各 个 小 节 中 展开 叙述 ) 和 关系 如 图 9-3 所 示 。 


进程 范围 


struct proc_struct 


struct fs_struct * fs_struct 


struct inode * pwd 


struct file * file 


z= 
struct file * file _> 


struct inode * node 


struct sfs_super sfs superblock info 


struct sfs_inode __sfs_inode_info 
sha itil ie aan 


struct sfs_disk_inode*din 


semaphore_t sem 


list_entry_t inode_link 


Memory 一 一 一 一 


SES | | | din | direct[1] direct[2] 


图 9-3 ucore 中 文件 相关 关键 数据 结构 及 其 关系 
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9.3.2 通用 文件 系统 访问 接口 


1. 文件 和 目录 相关 用 户 库 函 数 

lab8 中 部 分 用 户 库 函数 与 文件 系统 有 关 , 我 们 先 讨论 对 单个 文件 进行 操作 的 系统 调 
用 ,然后 讨论 对 目录 和 文件 系统 进行 操作 的 系统 调用 。 

在 文件 操作 方面 ,最 基本 的 相关 函数 是 open ,close\read write。 在 读 写 一 个 文件 之 前 ， 
首先 要 用 open 系统 调用 将 其 打开 。open 的 第 一 个 参数 指定 文件 的 路 径 名 ,可 使 用 绝对 路 
径 名 ;第 二 个 参数 指定 打开 的 方式 ,可 设置 为 O_RDONLY 、O_WRONLY O_RDWR, ,分 别 
表示 只 读 、 只 写 .可 读 可 写 。 打 开 一 个 文件 后 ,就 可 以 使 用 它 返回 的 文件 描述 符 fd 对 文件 进 
行 相关 操作 。 使 用 完 一 个 文件 后 ,还 要 用 close 系统 调用 把 它 关 闭 ,其 参数 就 是 文件 描述 符 
fd。 这 样 它 的 文件 描述 符 就 可 以 空 出 来 ,给 别 的 文件 使 用 。 

读 写 文件 内 容 的 系统 调用 是 read 和 write. read 系统 调用 有 三 个 参数 : 一 个 指定 所 操 
作 的 文件 描述 符 ,一 个 指定 读 取 数据 的 存放 地 址 ,最 后 一 个 指定 读 多 少 个 字 节 。 在 C 程序 
中 调用 该 系统 调用 的 方法 如 下 : 


count= read (filehandle, buffer, nbytes); 


该 系统 调用 会 把 实际 读 到 的 字 节 数 返回 给 count 变量 。 在 正常 情形 下 这 个 值 与 nbytes 
相等 ,但 有 时 可 能 会 小 一 些 。 例 如 ,在 读 文件 时 碰 上 了 文件 结束 符 , 从 而 提前 结束 此 次 读 
操作 。 

如 果 由 于 参数 无 效 或 磁盘 访问 错误 等 原因 ,使 得 此 次 系统 调用 无 法 完成 , 则 count 被 置 
为 一 1, 而 write 函数 的 参数 与 之 完全 相同 。 

对 于 目录 而 言 ,最 常用 的 操作 是 跳 转 到 某 个 目录 ,这 里 对 应 的 用 户 库 函 数 是 chdir。 然 
后 就 需要 读 目 录 的 内 容 了 , 即 列 出 目录 中 的 文件 或 目录 名 ,这 在 处 理 上 与 读 文 件 类 似 , 即 需 
要 通过 opendir 函数 打开 目录 ,通过 readdir 来 获取 目录 中 的 文件 信息 , 读 完 后 还 需 通 过 
closedir 函数 来 关闭 目录 。 由 于 在 ucore 中 把 目录 看 成 一 个 特殊 的 文件 ,所 以 opendir 和 
closedir 实际 上 就 是 调用 与 文件 相关 的 open 和 close PARK. RA readdir 需要 调用 获取 目录 
内 容 的 特殊 系统 调用 sys_getdirentry。 而 且 这 里 没有 写 目 录 这 一 操作 。 在 目录 中 增加 内 容 
其 实 就 是 在 此 目录 中 创建 文件 ,需要 用 到 创建 文件 的 函数 。 

2. 文件 和 目录 访问 相关 系统 调用 

与 文件 相关 的 open、close、read、write 用 户 库 函数 对 应 的 是 sys_open、sys_close、sys_ 
read、sys_write 四 个 系统 调用 接口 。 与 目录 相关 的 readdir H J E R BCX hy AY FE sys_ 
getdirentry 系统 调用 。 这 些 系统 调用 函数 接口 将 通过 syscall 函数 来 获得 ucore 的 内 核 服 
务 。 当 到 了 ucore 内 核 后 ,再 调用 文件 系统 抽象 层 的 file 接口 和 dir 接口 。 


9.3.3 Simple FS 文件 系统 


这 里 我 们 没有 按照 从 上 到 下 先 讲 文件 系统 抽象 层 , 再 讲 具 体 的 文件 系统 。 这 是 由 于 如 
果 能 够 理解 Simple FSCSFS) 文 件 系统 ,就 可 更 好 地 分 析 文件 系统 抽象 层 的 设计 , 即 从 具体 
走向 抽象 。ucore 内 核 把 所 有 文件 都 看 做 字 节 流 , 任 何 内 部 逻辑 结构 都 是 专用 的 ,由 应 用 程 
序 负责 解释 。 但 是 ucore 区 分 文件 的 物理 结构 。ucore 目前 支持 如 下 几 种 类 型 的 文件 。 
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(1) 常规 文件 : 文件 中 包括 的 内 容 信息 是 由 应 用 程序 输入 。SFS 文件 系统 在 普通 文件 
上 不 强加 任何 内 部 结构 ,把 其 文件 内 容 信息 看 成 字 节 。 

(2) HR: 包含 一 系列 的 entry, 每 个 entry 包含 文件 名 和 指向 与 之 相关 联 的 索引 节点 
(index node) 的 指针 。 目 录 是 按 层 次 结构 组 织 的 。 

(3) 链接 文件 : 实际 上 一 个 链接 文件 是 一 个 已 经 存在 的 文件 的 另 一 个 可 选择 的 文 
件 名 。 

(4) 设备 文件 : 不 包含 数据 ,但 是 提供 了 一 个 映射 物理 设备 (如 串口 .键盘 等 ) 到 一 个 文 
件 名 的 机 制 。 可 通过 设备 文件 访问 外 围 设备 。 

(5) 管道 : 管道 是 进程 间 通 信 的 一 个 基础 设施 。 管 道 缓存 了 其 输入 端 所 接收 的 数据 ， 
以 便 在 管道 输出 端 读 的 进程 能 以 一 个 先进 先 出 的 方式 接收 数据 。 

在 lab8 中 关注 的 主要 是 SFS 支持 的 常规 文件 .目录 和 链接 中 的 hardlink 的 设计 实现 。 
SFS 文 件 系 统 中 目录 和 常规 文件 具有 共同 的 属性 ,而 这 些 属性 保存 在 索引 节点 中 。SFS iÑ 
过 索引 节点 来 管理 目录 和 常规 文件 ,索引 节点 包含 操作 系统 所 需要 的 关于 某 个 文件 的 关键 
信息 ,比如 文件 的 属性 ,访问 许可 权 以 及 其 他 控制 信息 都 保存 在 索引 节点 中 。 可 以 有 多 个 文 
件 名 指向 一 个 索引 节点 。 

1. 文件 系统 的 布局 

文件 系统 通常 保存 在 磁盘 上 。 在 本 实验 中 ,第 三 个 磁盘 ( 即 disk0 ,前 两 个 磁盘 分 别 是 
ucore, img 和 swap. img) 用 于 存放 一 个 SFS 文件 系统 (Simple Filesystem)。 文 件 系 统 中 ， 
磁盘 的 使 用 通常 是 以 扇 区 (Sector) 为 单位 的 ,但 是 为 了 实现 简便 ,SFS 中 以 block(4KB, 与 
内 存 page 大 小 相等 ) 为 基本 单位 。 

SFS 文件 系统 的 布局 如 下 所 示 。 


superblock root-dir inode freemap inode/File Data/Dir Data blocks 


第 0 个 块 (4KB) 是 超级 块 , 它 包含 了 关于 文件 系统 的 所 有 关键 参数 , 当 计 算 机 启动 或 文 
件 系统 被 首次 接触 时 ,超级 块 的 内 容 就 会 被 装 入 内 存 。 其 定义 如 下 : 


struct sfs _ super { 


uint32 t magic; /* magic number, should be SFS MAGIC* / 
uint32_t blocks; /* #of blocks in fs* / 

uint32 t unused blocks; /* #0f unused blocks in fs* / 

char info[SFS_MAX INFO IEW 1]; /* infamation for sfs * / 


F 


可 以 看 到 , 它 包 含 一 个 成 员 变 量 magic, 其 值 为 0x2f8dbe2a, 内 核 通过 它 来 检查 磁盘 镜 
像 是 否 是 合法 的 SFS img; 成 员 变量 blocks 记录 了 SFS 中 所 有 block 的 数量 , 即 img 的 大 
小 ;成 员 变 量 unused_block 记录 了 SFS 中 还 没有 被 使 用 的 block 的 数量 ;成 员 变量 info 包 
含 了 字符 串 "simple file system", 

第 1 个 块 放 了 一 个 root-dir 的 inode, 用 来 记录 根 目 录 的 相关 信息 。 有 关 inode 还 将 在 
后 续 部 分 介绍 。 这 里 只 要 理解 root-dir 是 SFS 文件 系统 的 根 节 点 ,通过 这 个 root-dir 的 
inode 信息 就 可 以 定位 并 查找 到 根 目录 下 的 所 有 文件 信息 。 

从 第 2 个 块 开始 ,根据 SFS 中 所 有 块 的 数量 ,用 1 个 bit 来 表示 一 个 块 的 占用 和 未 被 占 
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用 的 情况 。 这 个 区 域 称 为 SFS 的 freemap 区 域 ,这 将 占用 若干 个 块 空间 。 为 了 更 好 地 记录 
和 管理 freemap 区 域 . 专 门 提供 了 两 个 文件 kern/fs/sfs/bitmap. [chj] 来 完成 根据 一 个 块 号 
查找 或 设置 对 应 的 bit 位 的 值 。 

最 后 在 剩余 的 磁盘 空间 中 ,存放 了 所 有 其 他 目录 和 文件 的 inode 信息 和 内 容 数据 信息 。 
需要 注意 的 是 ,虽然 inode 的 大 小 小 于 一 个 块 的 大 小 (4096B) ,但 为 了 实现 简单 ,每 个 inode 
都 占用 一 个 完整 的 block。 

在 sfs_fs.c 文 件 中 的 sfs_do_mount 函数 中 ,完成 了 加 载 位 于 硬盘 上 的 SFS 文件 系统 的 
超级 块 super block 和 freemap 的 工作 。 这 样 ,在 内 存 中 就 有 了 SFS 文件 系统 的 全 局 信息 。 

2. 索引 节点 

1) 磁盘 索引 节点 

SFS 中 的 磁盘 索引 节点 代表 了 一 个 实际 位 于 磁盘 上 的 文件 。 首 先 我 们 看 看 在 硬盘 上 的 
索引 节点 的 内 容 : 


struct sfs disk inode { 


uint32_t size; 7 * 如果 inode 表 示 常 规 文件 , 则 size 是 文件 大 小 * / 
uint16 t type; /* inode 的 文件 类 型 * / 

uint16 t nlinks; /* 此 inode 的 硬 链接 数 * / 

uint32 t blocks; /* inode 的 数据 块 数 的 个 数 * / 

uint32_t direct [SES_NDIRECT]; /* 此 inode 的 直接 数据 块 索引 值 有 SES_NDIRECT +) * / 
uint32 t indirect; 7% 此 inode 的 一 级 间接 数据 块 索引 值 * / 


F 


从 上 面 可 以 看 出 ,如 果 inode 表示 的 是 文件 , 则 成 员 变量 direct[ ] 直 接 指向 了 保存 文件 
内 容 数据 的 数据 块 索引 值 。indirect 间接 指向 了 保存 文件 内 容 数据 的 数据 块 ,indirect 指向 
的 是 间接 数据 块 , 此 数据 块 实际 存放 的 全 部 是 数据 块 索引 ,这 些 数据 块 索 引 指向 的 数据 块 才 
被 用 来 存放 文件 内 容 数据 。 

ucore 里 SFS_NDIRECT 默认 是 12, 即 直接 索引 的 数据 页 大 小 为 12X4KB 王 48KB; 当 
使 用 一 级 间接 数据 块 索 引 时 ,ucore 支持 最 大 的 文件 大 小 为 12X4KB 十 1024 X 4KB=48KB+ 
4MB。 数 据 索 引 表 内 ,0 表示 一 个 无 效 的 索引 ,inode 里 blocks 表示 该 文件 或 者 目录 占用 的 
磁盘 的 block 的 个 数 。indiret 为 0 时 ,表示 不 使 用 一 级 索引 块 (因为 block 0 用 来 保存 
super block, 它 不 可 能 被 其 他 任何 文件 或 目录 使 用 ,所 以 这 么 设计 也 是 合理 的 )。 

对 于 普通 文件 ,索引 值 指向 的 block 中 保存 的 是 文件 中 的 数据 。 对 于 目录 ,索引 值 指向 
的 数据 保存 的 是 目录 下 所 有 的 文件 名 以 及 对 应 的 索引 节点 所 在 的 索引 块 (磁盘 块 ) 所 形成 的 
数组 。 数 据 结构 如 下 : 


/* file entry (an disk) * / 

struct sfs_disk entry { 
uint32 t ino; 1% 索引 节点 所 占 数 据 块 索引 值 * / 
char name [SFS MAX FNAME IFW 1]; 1* SUES * / 

F 


操作 系统 中 ,每 个 文件 系统 下 的 inode 都 应 该 分 配 唯一 的 inode 编号 。 在 SFS 下 ,为 了 


实现 的 简便 ,每 个 inode 直接 用 它 所 在 的 磁盘 block 的 编号 作为 inode 编号 。 例 如 ,root 
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block 的 inode 编号 为 1 ;每 个 sfs_disk_entry 数据 结构 中 ,name 表示 目录 下 文件 或 文件 夹 
的 名 称 ,ino 表示 磁盘 block 编号 ,通过 读 取 该 block 的 数据 ,能 够 得 到 相应 的 文件 或 文件 夹 
的 inode. ino 为 0 时 ,表示 一 个 无 效 的 entry. 

此 外 ,和 inode 相似 ,每 个 sfs_dirent_entry 也 占用 一 个 block。 

2) 内 存 中 的 索引 节点 


/* inode for sfs* / 
struct sfs_inode { 


struct sfs disk inode* din; /* on- disk inade* / 

uint32_t ino; /* inode number * / 

uint32_t flags; /* inode flags * / 

bool dirty; /* true if inode modified / 

int reclaim count; /* kill inode if it hits zero* / 
semaphore t sem; /* semaphore for din* / 

list entry t inode link; /* entry for linket list in sfs fs* / 
list entry t hash link; /* entry for hash linked- list in sfs _fs* / 


F 


可 以 看 到 ,SFS 中 的 内 存 inode 包含 了 SFS 的 硬盘 inode 信息 ,而 且 还 增加 了 其 他 一 些 
信息 ,这 些 信息 便于 进行 判断 是 否 改写 . 互 斥 操作 、 回 收 和 快速 地 定位 等 作用 。 需 要 注意 ,一 
个 内 存 inode 是 在 打开 一 个 文件 后 才 创 建 的 ,如 果 关 机 则 相关 信息 都 会 消失 。 而 硬盘 inode 
的 内 容 是 保存 在 硬盘 中 的 ,只 是 在 进程 需要 时 才 被 读 入 到 内 存 中 ,用 于 访问 文件 或 目录 的 具 
体内 容 数据 。 

为 了 方便 实现 上 面 提 到 的 多 级 数据 的 访问 以 及 目录 中 entry 的 操作 ,对 inode SFS 实 
现 了 一 些 辅助 函数 。 

(1) sfs_bmap_load_nolock: 将 对 应 sfs_inode 的 第 index 个 索引 指向 的 block 的 索引 
值 取 出 存 到 相应 的 指针 指向 的 单元 (ino_store) 。 该 图 数 只 接受 index 所 一 inode 一 之 blocks 
的 参数 。 当 index= 王 王 inode 一 二 blocks 时 ,该 函数 理解 为 需要 为 inode 增长 一 个 block ,并 标 
记 inode 为 dirty( 所 有 对 inode 数据 的 修改 都 要 做 这 样 的 操作 ,这 样 , 当 inode 不 再 使 用 的 时 
候 ,sfs 能 够 保证 inode 数据 能 够 被 写 回 到 磁盘 ) 。sfs_bmap_load_nolock 调用 的 sfs_bmap_ 
get_nolock 来 完成 相应 的 操作 ,阅读 sfs_bmap_get_nolock, 了 解 它 是 如 何 工 作 的 (Csfs_bmap 
_get_nolock 只 由 sfs_bmap_load_nolock 调用 ) 。 

(2) sfs_bmap_truncate_nolock: 将 多 级 数据 索引 表 的 最 后 一 个 entry 释放 掉 。 它 可 以 
认为 是 sfs_bmap_load_nolock 中 index 王 一 inode 一 二 blocks 的 道 操作 。 当 一 个 文件 或 目录 
被 删除 时 ,sfs SR AIA AIK Ph BC FI inode— >blocks 减 为 0, 释放 所 有 的 数据 页 。 函 数 通 
过 sfs_bmap_free_nolock 来 实现 , 它 应 该 是 sfs_bmap_get_nolock 的 逆 操 作 。 与 sfs_bmap_ 
get_nolock 一 样 ,调用 sfs_bmap_free_nolock 也 要 格外 小 心 。 

(3) sfs_dirent_read_nolock: 将 目录 的 第 slot 个 entry 读 取 到 指定 的 内 存 空间 。 它 通 
过 上 面 提 到 的 函数 来 完成 。 

(4) sfs_dirent_write_nolock: 用 指定 的 entry 来 替换 某 个 目录 下 的 第 slot 个 entry。 它 
通过 调用 sfs_ bmap_load_nolock, 保证 当 第 slot 个 entry A FF E AY (slot = = inode — > 
blocks) ,SFS 会 分 配 一 个 新 的 entry, 即 在 目录 尾 添 加 了 一 个 entry。 
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(5) sfs_dirent_search_nolock; 是 常用 的 查找 函数 。 它 在 目录 下 查找 name. Jf Aik Fl 
相应 的 搜索 结果 (文件 或 文件 夹 ) 的 inode 的 编号 (也 是 磁盘 编号 ) ,以 及 相应 的 entry 在 该 目 
录 的 index 编号 和 目录 下 的 数据 页 是 否 有 空闲 的 entry。SFS 中 文件 的 数据 页 是 连续 的 ,不 
存在 任何 空洞 ;而 对 于 目录 ,数据 页 不 是 连续 的 , 当 某 个 entry 删除 的 时 候 ,SFS 通过 设置 
entry—>ino 为 0 将 该 entry 所 在 的 block 标记 为 free, 在 需要 添加 新 entry 的 时 候 ,SFS 优 
先 使 用 这 些 free 的 entry, 其 次 才 会 去 在 数据 页 尾 追 加 新 的 entry。 

TER: 这 些 后 组 为 nolock 的 函数 ,只 能 在 已 经 获得 相应 inode 的 semaphore 时 才能 
调用 。 

3) inode 的 文件 操作 函数 


static const struct inode œs sfs node fileops= { 


-vop magic =VOP_MAGIC, 
-vop_gpen =sfs_openfile, 
-vop_close =sfs_close, 
-vop _read =sfs _ read, 


-vop_write =sfs write, 


F 

上 述 sfs_openfile, sfs_close, sfs_read 和 sfs_write 分 别 对 应 用 户 进程 发 出 的 open, 
close read write 操作 。 其 中 sfs_openfile 不 用 做 什么 事 ;sfs_close 需要 把 对 文件 的 修改 内 
容 写 回 到 硬盘 上 ,这样 确保 硬盘 上 的 文件 内 容 数 据 是 最 新 的 :sfs_read 和 sfs_write 函数 都 
调用 了 一 个 函数 sfs_io ,并 最 终 通 过 访问 硬盘 驱动 来 完成 对 文件 内 容 数 据 的 读 写 。 

4) inode 的 目录 操作 函数 


static const struct inode cps sfs node dirops= { 


-Vop magic =VOP MGIC, 
-vop_gpen =sfs_opendir, 
-vop_close =sfs_close, 
-vop_getdirentry =sfs_getdirentry, 


-vop_lookup =sfs_lookup, 


ie 

对 于 目录 操作 而 言 , 由 于 目录 也 是 一 种 文件 ,所 以 sfs_opendir,sys_close 对 应 户 进程 发 
出 的 open,close 函数 。 相 对 于 sfs_open,sfs_opendir 只 是 完成 一 些 open 函数 传递 的 参数 
判断 , 没 做 其 他 事情 。 目 录 的 close 操作 与 文件 的 close 操作 完全 一 致 。 由 于 目录 的 内 容 数 
据 与 文件 的 内 容 数据 不 同 ,所 以 读 出 目录 的 内 容 数 据 的 函数 是 sfs_getdirentry, 其 主要 工作 
是 获取 目录 下 的 文件 inode 信息 。 


9.3.4 文件 系统 抽象 层 一 一 VFS 


文件 系统 抽象 层 是 把 不 同文 件 系统 的 对 外 共性 接口 提取 出 来 ,形成 一 个 函数 指针 数组 ， 
这 样 ,通用 文件 系统 访问 接口 层 只 需 访问 文件 系统 抽象 层 ,而 不 需 关心 具体 文件 系统 的 实现 
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细节 和 接口 。 
1. file 和 dir 接口 


file 和 dir 接口 层 定义 了 进程 在 内 核 中 直接 访问 的 文件 相关 信息 ,这 定义 在 file 数据 结 


构 中 ,具体 描述 如 下 : 


struct file { 


enum { 


FD NONE, FD INIT, FD OPENED, FD CLOSED, 


} status; 

bool readable; 

bool writable; 

int fd; 

off t pos; 

struct inode* node; 

atomic_t oen comt; 
F 


// 访 问 文件 的 执行 状态 
/文件 是 否 可 读 
/文件 是 否 可 写 

// 文 件 在 filerap 中 的 索引 值 
// 访 问 文件 的 当前 位 置 

// 该 文件 对 应 的 内 存 inode 48 Et 
// 打 开 此 文件 的 次 数 


而 在 kern/process/proc. h 中 的 proc_struct 结构 中 描述 了 进程 访问 文件 的 数据 接口 


fs_struct, 其 数据 结构 定义 如 下 : 


struct fs struct { 
struct inode * pwd; 
struct file* filemap; 
atomic_t fs count; 
semaphore t fs san; 
Me 


// 进 程 当前 执行 目录 的 内 存 inode 48 ft 

// 进 程 打 开 文 件 的 数组 

// 访 问 此 文件 的 线程 个 数 
JPR AS UE BEBE HS fs struct 的 互 斥 访问 


当 创 建 一 个 进程 后 ,该 进程 的 fs_struct 将 会 被 初始 化 或 复制 父 进程 的 fs_struct。 当 用 
户 进程 打开 一 个 文件 时 ,将 从 filemap 数组 中 取得 一 个 空闲 file 项 ,然后 会 把 此 file 的 成 员 
变量 node 指针 指向 一 个 代表 此 文件 的 inode 的 起 始 地 址 。 


2. inode 接口 


index node 是 位 于 内 存 的 索引 节点 , 它 是 VES 结构 中 的 重要 数据 结构 ,因为 它 实际 负 
责 把 不 同文 件 系统 的 特定 索引 节点 信息 (甚至 不 能 算是 一 个 索引 节点 ) 统 一 封装 起 来 ,避免 
了 进程 直接 访问 具体 文件 系统 。 其 定义 如 下 : 


struct inode { 


wio { 


struct device device info; 
struct sfs inode sfs_ inode info; 


} in_info; 


enum { 


inode type device info 0x123, 
inode type sfs inode info, 


} in_type; 

atamic_t ref count; 

atamic_t qpen_count; 
°. 184 ° 


// 包 含 不 同文 件 系统 特定 inde fA SAY union 成 员 变 量 
// 设 备 文件 系统 内 存 inode 信息 
//SFS 文 件 系统 内 存 inode 信息 


// 此 inode 所 属 文件 系统 类 型 
// 此 inode 的 引用 计数 
// 打 开 此 inode 对 应 文件 的 个 数 


struct fs* in fs; // 抽 象 的 文件 系统 ,包含 访问 文件 系统 的 函数 指针 
const struct inode ops* in ops; /抽象 的 inode #2 FE ,包含 访问 inode 的 函数 指针 
F 
在 inode 中 ,有 一 成 员 变 量 为 in_ops, 这 是 对 此 inode 的 操作 函数 指针 列表 ,其 数据 结构 
定义 如 下 : 
struct inode ops { 
unsigned long vop magic; 
int (* vop_open) (struct inode * node, uint32_t œen flags); 
int (* vop close) (struct inode* node); 
int (* vop read) (struct inode * node, struct idbuf * id); 
int (* vop write) (struct inode* node, struct idbuf * idb); 
int (* vop_getdirentry) (struct inode* node, struct igouf * idb); 
int (* vop create) (struct inode * node, const char* name, bool excl, struct inode* * node store); 
int (* vop_lookup) (struct inode * node, char* path, struct inode* * node store); 


F 


参照 上 面 对 SFS 中 的 索引 节点 操作 函数 的 说 明 ,可 以 看 出 inode_ops 是 对 常规 文件 、 目 
录 、 设 备 文件 所 有 操作 的 一 个 抽象 函数 表示 。 对 于 某 一 具体 的 文件 系统 中 的 文件 或 目录 ,只 
需 实现 相关 的 函数 ,就 可 以 被 用 户 进程 访问 具体 的 文件 , 且 用 户 进程 无 须 了 解 具体 文件 系统 
的 实现 细节 。 


9.3.5 设备 层 文 件 MO 层 


在 本 实验 中 ,为 了 统一 地 访问 设备 ,可 以 把 一 个 设备 看 成 一 个 文件 ,通过 访问 文件 的 接 
口 来 访问 设备 。 目 前 实现 了 stdin 设备 文件 .stdout 设备 文件 disko 设备 。stdin 设备 就 是 
键盘 ,stdout 设备 就 是 CONSOLE( 串 口 ,并口 和 文本 显示 器 ) ,而 disko 设备 是 承载 SFS 文 
件 系 统 的 磁盘 设备 。 下 面 逐 一 分 析 ucore 是 如 何 让 用 户 把 设备 看 成 文件 来 访问 。 

1. 关键 数据 结构 

为 了 表示 一 个 设备 ,需要 有 对 应 的 数据 结构 ,ucore 为 此 定义 了 struct device, 其 描述 
WF: 


struct device { 


size t d blocks; // 设 备 占 用 的 数据 块 个 数 
size t d blocksize; /数据 块 的 大 小 

int (* d_qpen) (struct device* dev, uint32_t open flags); // 打 开设 备 的 函数 指针 
int (* d close) (struct device* dev); // 关 闭 设备 的 函数 指针 


int (* d_io) (struct device * dev, struct idouf * idb, bool write); 
// 读 写 设备 的 函数 指针 
int (* d ioctl) (struct device* dev, int op, void* data); 
// 用 ioctl 方式 控制 设备 的 函数 指针 
F 


这 个 数据 结构 能 够 支持 对 块 设备 (比如 磁盘 ) .字符 设备 (比如 键盘 .串口 ) 的 表示 ,完成 
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对 设备 的 基本 操作 。ucore 虚拟 文件 系统 为 了 把 这 些 设备 链接 在 一 起 ,还 定义 了 一 个 设备 
链表 , 即 双向 链表 vdev_list, 这 样 通过 访问 此 链表 ,可 以 找到 ucore 能 够 访问 的 所 有 设备 
pain 

但 这 个 设备 描述 没有 与 文件 系统 以 及 表示 一 个 文件 的 inode 数据 结构 建立 关系 ,为 此 ， 
还 需要 另外 一 个 数据 结构 把 device 和 inode 联通 起 来 ,这 就 是 vis_dev_t 数据 结构 : 


//device info entry in væv list 
typedef struct { 
const char * devname; 
struct inode * devnode; 
struct fs* fs; 
bool mountable; 
list entry t væv link; 
} vfs dev t; 
利用 vis_dev_t 数据 结构 ,就 可 以 让 文件 系统 通过 一 个 链接 vfs_dev_t 结构 的 双向 链表 
找到 device 对 应 的 inode 数据 结构 ,一 个 inode 节点 的 成 员 变 量 in_type 的 值 是 0x1234, Ml) 
此 inode 的 成 员 变量 in_info 将 成 为 一 个 device 结构 。 这 样 inode 就 和 一 个 设备 建立 了 联 
系 , 这 个 inode 就 是 一 个 设备 文件 。 
2. stdout 设备 文件 
1) 初始 化 
由 于 stdout 设备 是 设备 文件 系统 的 文件 , 它 自然 有 自己 的 inode 结构 。 在 系统 初始 化 
时 ,只 需 如 下 处 理 过 程 


kem init-->fs init-->dev_init-->dev_init_stdout-->dev_create inode 
——> stdout device init 
-->vfs add œv 


在 dev_init_stdout 中 完成 了 对 stdout 设备 文件 的 初始 化 。 即 首先 创建 了 一 个 inode, 
然后 通过 stdout_device_init 完成 对 inode 中 的 成 员 变量 inode 一 二 __device_info 进行 初始 : 
这 里 的 stdout 设备 文件 实际 上 就 是 指 的 console 外 设 ( 它 其 实 是 串口 ,并口 和 CGA 的 
组 合 型 外 设 ) 。 这 个 设备 文件 是 一 个 只 写 设 备 , 如 果 读 这 个 设备 ,就 会 出 错 。 接 下 来 我 们 看 
看 stdout 设备 的 相关 处 理 过 程 。 
stdout 设备 文件 的 初始 化 过 程 主要 由 stdout_device_init 完成 ,其 具体 实现 如 下 : 
static void 
stdout_device init (struct device * dev) { 
dev- > d_blocks= 0; 
dev- > d blocksize=1; 
dev->d_qpen= stdout_open; 
dev->d_close= stdout_close; 
dev- > d_io= stdout_io; 
der- >d ioctl= stdout_ioct1; 
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可 以 看 到 ,stdout_open Ph AM Fé WIL MCE TT FFE. WR ACHR LE Ev A] open PBC 
的 参数 flags 不 是 只 写 (O_WRONLY) , 则 会 报错 。 
2) 访问 操作 实现 
stdout_io 函数 完成 设备 的 写 操作 工作 ,具体 实现 如 下 : 
static int 
stdout_io(struct device* dev, struct iuf * idb, bool write) { 
if (write) { 
char * data= idb- > io base; 
for (; idb->io resid (=0; idb->io resid--) { 
qputchar(* datar +); 
} 
retum 0; 
} 
retum-E_INWAL; 
} 
可 以 看 到 ,要 写 的 数据 放 在 iob— > io_base 所 指 的 内 存 区 域 , 一 直 写 到 iob— >io_resid 
的 值 为 0 为 止 。 每 次 写 操作 都 是 通过 cputchar 来 完成 的 ,此 函数 最 终 将 通过 console 外 设 
驱动 来 完成 把 数据 输出 到 串口 .并口 和 CGA 显示 器 上 。 另 外 ,也 可 以 注意 到 ,如 果 用 户 想 
执行 读 操 作 , 则 stdout_io 函数 直接 返回 错误 值 -E_INVAL。 
3. stdin 设备 文件 
这 里 的 stdin 设备 文件 实际 上 就 是 指 键盘 。 这 个 设备 文件 是 一 个 只 读 设备 ,如 果 写 这 
个 设备 ,就 会 出 错 。 接 下 来 我 们 看 看 stdin 设备 的 相关 处 理 过 程 。 
1) 初始 化 
stdin 设备 文件 的 初始 化 过 程 主要 由 stdin_device_init 完成 了 主要 的 初始 化 工作 ,具体 
实现 如 下 : 
static void 
stdin device init (struct devicex dev) { 
dv- >d blocks= 0; 
av- >d blocksize- 1; 
dev- >d_open= stdin en; 
dev- >d close stdin close; 
dev- >d jor stdin io; 
dd ioi stdin ioctl; 


P_mpos=p _wpos= 0; 
wait queue init (wait_queue); 
} 
相对 于 stdout 的 初始 化 过 程 ,stdin 的 初始 化 相对 复杂 一 些 ,多 了 一 个 stdin_buffer 缓冲 
区 ,描述 缓冲 区 读 写 位 置 的 变量 p_rpos.p_wpos 以 及 用 于 等 待 缓冲 区 的 等 待 队列 wait_queue。 
在 stdin_device_init 函数 的 初始 化 中 ,也 完成 了 对 p_rpos、p_wpos 和 wait_queue 的 初始 化 。 
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2) 访问 操作 实现 
stdin_io 函数 负责 完成 设备 的 读 操 作 , 具 体 实现 如 下 : 
static int 
stdin jio (struct device* dev, struct iabuf* icb, bool write) { 
if (!write) { 
int ret; 
if ((ret=dev stdin read(idb-> io base, idb->io resid))>0) { 
idb- > io _resid-= ret; 
} 
retum ret; 
} 
retum-E INAL; 
} 


可 以 看 到 ,如 果 是 写 操作 , 则 stdin_io 函数 直接 报错 返回 。 所 以 这 也 进一步 说 明了 此 设 
备 文件 是 只 读 文 件 。 如 果 是 读 操 作 , 则 此 函数 进一步 调用 dev_stdin_read 函数 完成 对 键盘 
设备 的 读 入 操作 。dev_stdin_read 函数 的 实现 相对 复杂 一 些 ,具体 实现 如 下 : 


static int 
dev stdin read(char* buf, size t len) { 
int ret= 0; 
bool intr flag; 
local intr save(intr flag); 
{ 
for (; ret< len; ret++, p pos++) { 
try again: 
if (p_xpos<p wpos) { 
* buf+ += stdin buffer[p rpos % stdin BUFSIZE]; 
} 
else { 
wait t wait, * wait=& wait; 
wait_current_set (wait_queue, wait, WT KED); 
local_intr_restore (intr flag); 


schedule () ; 


local intr save(intr flag); 

wait current œl (wait_queue, wait); 

if (wait->wakep flags==WI_KBD) { 
goto try aqin; 

} 

break; 


} 
local intr restore (intr flag); 
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retum ret; 
} 


在 上 述 函 数 中 可 以 看 出 ,如 果 p_rpos < p_wpos, 则 表示 有 键盘 输入 的 新 字符 在 stdin_ 
buffer 中 ,于 是 就 从 stdin_buffer 中 取出 新 字符 放 到 iobuf 指向 的 缓冲 区 中 ;如 果 p_rpos >=p_ 
wpos， 则 表明 没有 新 字符 ,这样 调 用 read 用 户 态 库 函数 的 用 户 进程 就 需要 采用 等 待 队列 的 
睡眠 操作 进入 睡眠 状态 ,等 待 从 键盘 输入 字符 。 

从 键盘 输入 字符 后 ,如 何 唤醒 等 待 键盘 输入 的 用 户 进程 呢 ? 回顾 labl 中 的 外 设 中 断 处 
理 ,可 以 了 解 到 , 当 用 户 斋 击 键盘 时 ,会 产生 键盘 中 断 ,在 trap_dispatch 函数 中 , 当 识 别 出 中 
断 是 键盘 中 断 ( 中 断 号 为 IRQ_OFFSET 十 IRQ_KBD) 时 ,会 调用 dev_stdin_write 函数 ,把 
字符 写 人 stdin_buffer 中 , 且 会 通过 等 待 队 列 的 唤醒 操作 唤醒 正在 等 待 键 盘 输 入 的 用 户 
进程 。 


9.3.6 实验 执行 流程 概述 


与 实验 7 相 比 ,实验 8 增加 了 文件 系统 ,并 因此 实现 了 通过 文件 系统 来 加 载 可 执行 文件 
到 内 存 中 运行 的 功能 ,导致 对 进程 管理 相关 的 实现 有 比较 大 的 调整 。 我 们 来 看 看 文件 系统 
是 如 何 初始 化 并 能 在 ucore 的 管理 下 正常 工作 。 

首先 看 看 kern_init 函数 ,可 以 发 现 与 lab7 相 比 它 增加 了 对 fs_init 函数 的 调用 。fs_init 
函数 就 是 文件 系统 初始 化 的 总 控 函 数 , 它 进一步 调用 了 虚拟 文件 系统 初始 化 函数 vfs_init， 
与 文件 相关 的 设备 初始 化 函数 dev_init 和 Simple FS 文件 系统 的 初始 化 函数 sfs_init。 这 三 
个 初始 化 函数 联合 在 一 起 ,协同 完成 了 整个 虚拟 文件 系统 、SFS 文件 系统 和 文件 系统 对 应 的 
设备 (键盘 ,串口 磁盘) 的 初始 化 工作 。 其 函数 调用 关系 图 如 图 9-4 所 示 。 
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9-4 文件 系统 初始 化 调用 关系 图 


参考 图 9-4 并 结合 源码 分 析 , 可 大 致 了 解 到 文件 系统 的 整个 初始 化 流程 。vfs_init 主要 
建立 了 一 个 device list 双向 链表 vdev_list ,为 后 续 具 体 设 备 ( 键 盘 、 串口、 磁盘 ) 以 文件 的 形 
式 呈 现 建立 查找 访问 通道 。dev_init 函数 通过 进一步 调用 disk0/stdin/stdout_device_init 
完成 对 具体 设备 的 初始 化 ,把 它们 抽象 成 一 个 设备 文件 ,并 建立 对 应 的 inode 数据 结构 ,最 
后 把 它们 链 入 vdev_list 中 。 这 样 通过 虚拟 文件 系统 就 可 以 方便 地 以 文件 的 形式 访问 这 些 
设备 了 。sfs_init 是 完成 对 Simple FS 的 初始 化 工作 ,并 把 此 实例 文件 系统 挂 在 虚拟 文件 系 
统 中 ,从 而 让 ucore 的 其 他 部 分 能 够 通过 访问 虚拟 文件 系统 的 接口 来 进一步 访问 SFS 实例 
文件 系统 。 


9.3.7 文件 操作 实现 


1. 打开 文件 

有 了 上 述 分 析 后 ,我们 可 以 看 看 如 果 一 个 用 户 进 程 打开 文件 会 做 哪些 事情 ?首先 假定 
用 户 进程 需要 打开 的 文件 已 经 存在 硬盘 上 。 以 user/sfs_filetestl. c 为 例 , 首 先 用 户 进程 会 
调用 在 main 函数 中 的 如 下 语句 : 


int fal= safe open("/test/testfile",O ROWR|O_TRUNC) ; 


从 字面 上 可 以 看 出 ,如 果 ucore 能 够 正常 查找 到 这 个 文件 ,就 会 返回 一 个 代表 文件 的 文 
件 描述 符 fd1, 这 样 在 接 下 来 的 读 写 文 件 过 程 中 ,就 直接 用 fdl 来 代表 就 可 以 。 那 么 这 个 打 
开 文件 的 过 程 是 如 何 一 步 一 步 实现 的 呢 ? 

1) 通用 文件 访问 接口 层 的 处 理 流 程 

首先 进入 通用 文件 访问 接口 层 的 处 理 流 程 , 即 进一步 调用 如 下 用 户 态 函 数 : open 一 二 
sys_open 一 二 syscall， 从 而 引起 系统 调用 进入 到 内 核 态 。 到 了 内 核 态 后 ,通过 中 断 处 理 例 
程 ,会 调用 到 sys_open 内 核 函 数 ,并 进一步 调用 sysfile_open 内 核 函 数 。 到 了 这 里 ,需要 把 
位 于 用 户 空间 的 字符 串 “/test/testfile” 复 制 到 内 核 空 间 中 的 字符 串 path 中 ,并 进入 文件 系 
统 抽象 层 的 处 理 流程 完成 进一步 的 打开 文件 操作 。 

2) 文件 系统 抽象 层 的 处 理 流程 

(1) 分 配 一 个 空闲 的 file 数据 结构 变量 file. 

在 文件 系统 抽象 层 的 处 理 中 ,首先 调用 的 是 file_open 函数 , 它 要 给 这 个 即将 打开 的 文 
件 分 配 一 个 file 数据 结构 的 变量 ,这 个 变量 其 实 是 当前 进程 的 打开 文件 数组 current— > fs_ 
struct — >filemap[ ] 中 的 一 个 空闲 元 素 ( 即 还 没 用 于 一 个 打开 的 文件 ) ,而 这 个 元 素 的 索引 
值 就 是 最 终 要 返回 到 用 户 进程 并 赋值 给 变量 fdl 。 到 了 这 一 步 还 仅仅 是 给 当前 用 户 进程 分 
配 了 一 个 file 数据 结构 的 变量 ,还 没有 找到 对 应 的 文件 索引 节点 。 

为 此 需要 进一步 调用 vfs_open 函数 来 找到 path 指出 的 文件 所 对 应 的 基于 inode 数据 
结构 的 VFS 索引 节点 node, vfs_open 函数 需要 完成 两 件 事 情 : 通过 vfs_lookup 找到 path 
对 应 文件 的 inode; 调 用 vop_open pK RFT FF ICE. 

(2) 找到 文件 设备 的 根 目录 “/” 的 索引 节点 。 

需要 注意 ,这 里 的 vfs_lookup 函数 是 一 个 针对 目录 的 操作 函数 , 它 会 调用 vop_lookup 
函数 来 找到 SFS 文件 系统 中 的 “/test” 目 录 下 的 testfile 文件 。 为 此 ,vfs_lookup 函数 首先 
调用 get_device 函数 ,并 进一步 调用 vfs_get_bootfs 函数 (其 实 调用 了 ) 来 找到 根 目录 “/” 对 
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应 的 inode。 这 个 inode 就 是 位 于 vfs. c 中 的 inode 变量 bootfs_node。 这 个 变量 在 init_ 
main K% (F kern/process/proc. c) 执 行 时 获得 了 赋值 。 

(3) 找到 根 目 录 “/”* 下 的 test 子 目 录 对 应 的 索引 节点 。 

在 找到 根 目 录 对 应 的 inode 后 ,通过 调用 vop_lookup 函数 来 查找 “/” 和 test 这 两 层 目 
录 下 的 文件 testfile 所 对 应 的 索引 节点 ,如果 找 到 就 返回 此 索引 节点 。 

(4) 把 file 和 node 建立 联系 。 

完成 第 (3) 步 后 ,将 返回 到 file_open pA CF . ii wt HUT i# A “ file— > node= node; ” , Ht 
把 当前 进程 的 current— >fs_struct—>filemap[ fd] (Ef) file 所 指 变量 ) 的 成 员 变量 node 指 
针 指 向 了 代表 “/test/testfile” 文 件 的 索引 节点 node。 这 时 返回 fd。 经 过 重重 回 退 ,通过 系 
统 调用 返回 ,用 户 态 的 syscall—>sys_open— >open— >safe_open 等 用 户 函 数 的 层 层 函 数 
返回 ,最 终 把 把 fd 赋值 给 {dl1。 自 此 完成 了 打开 文件 操作 。 但 这 里 还 没有 分 析 第 (2) 步 和 
第 (3) 步 是 如 何 进一步 调用 SES 文件 系统 提供 的 函数 ,并 利用 该 函数 找 位 于 SFS 文件 系统 
上 的 “/test/testfile” 所 对 应 的 sfs 磁盘 inode 的 过 程 。 下 面 需 要 进一步 对 此 进行 分 析 。 

3) SFS 文件 系统 层 的 处 理 流程 

这 里 需要 分 析 文 件 系 统 抽 象 层 中 没有 彻底 分 析 的 vop_lookup 函数 到 底 做 了 什么 。 下 
面 我 们 来 看 看 。 在 sfs_inode. c 中 的 sfs_node_dirops 变量 定义 了 . vop_lookup = sfs_ 
lookup ,所 以 我 们 重点 分 析 sfs_lookup 的 实现 。 

sfs_lookup 有 三 个 参数 ; node, path, node_store, HEP node 是 根 目 录 “/” 所 对 应 的 
inode 节点 ;path 是 文件 testfile 的 绝对 路 径 /test/testfile, 而 node_store 是 经 过 查找 获得 的 
testfile 所 对 应 的 inode 节点 。 

Sfs_lookup 函数 以 “/” 为 分 割 符 , 从 左 至 右 逐 一 分 解 path 获得 各 个 子 目录 和 最 终 文件 
对 应 的 inode 节点 。 在 本 例 中 是 分 解 出 test 子 目录 ,并 调用 sfs_lookup_once 函数 获得 test 
子 目 录 对 应 的 inode 节点 subnode, 然 后 循环 进一步 调用 sfs_lookup_once 查找 以 test 子 目 
录 下 的 文件 testfilel 所 对 应 的 inode 节点 。 当 无 法 分 解 path 后 ,就 意味 着 找到 了 testfilel 
对 应 的 inode 节点 ,就 可 顺利 返回 了 。 

当然 这 里 讲 得 还 比较 简单 ,sfs_lookup_once 将 调用 sfs_dirent_search_nolock 函数 来 查 
找 与 路 径 名 匹配 的 目录 项 ,如 果 找 到 目录 项 , 则 根据 目录 项 中 记录 的 inode 所 处 的 数据 块 索 
引 值 找到 路 径 名 对 应 的 SFS 磁盘 inode, 并 读 入 SFS 磁盘 inode 对 的 内 容 , 创 建 SFS 内 存 
inode, 

2. 读 文件 

读 文件 其 实 就 是 读 出 目录 中 的 目录 项 ,首先 假定 文件 在 磁盘 上 且 已 经 打开 。 用 户 进程 
有 如 下 语句 : 


read(fd, data, len); 


即 读 取 fd 对 应 文件 , 读 取 长 度 为 lan, 存 人 data 中 。 下 面 来 分 析 一 下 读 文 件 的 实现 。 
1) 通用 文件 访问 接口 层 的 处 理 流程 
先进 入 通用 文件 访问 接口 层 的 处 理 流 程 , 即 进一步 调用 如 下 用 户 态 函数 : read 一 二 sys_ 
read 一 之 syscall, 从 而 引起 系统 调用 进入 到 内 核 态 。 到 了 内 核 态 以 后 ,通过 中 断 处 理 例 程 ， 
会 调用 到 sys_read 内 核 函 数 , 并 进一步 调用 sysfile_read 内 核 函 数 ,进入 文件 系统 抽象 层 处 
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理 流程 完成 进一步 读 文件 的 操作 。 

2) 文件 系统 抽象 层 的 处 理 流程 

(1) 检查 错误 , 即 检 查 读 取 长 度 是 否 为 0 和 文件 是 否 可 读 。 

(2) 分 配 buffer 空间 , 即 调 用 kmalloc 函数 分 配 4096B 的 buffer 空间 。 

(3) 读 文 件 过 程 。 

O 实际 读 文 件 。 

循环 读 取 文件 ,每 次 读 取 buffer 大 小 。 每 次 循环 中 , 先 检 查 剩余 部 分 大 小 ,车 其 小 于 
4096B, 则 只 读 取 剩余 部 分 的 大 小 。 然 后 调用 file_read 函数 (详细 分 析 见 后 面 的 内 容 ) 将 文 
件 内 容 读 取 到 buffer 中 ,alen 为 实际 大 小 。 调 用 copy_to_user 函数 将 读 到 的 内 容 复 制 到 用 
户 的 内 存 空间 中 ,调整 各 变量 以 进行 下 一 次 循环 读 取 , 直 至 指定 长 度 读 取 完成 。 最 后 函数 调 
用 层 层 返回 至 用 户 程 序 , 用 户 程序 收 到 了 读 到 的 文件 内 容 。 

© file_read 函数 。 

这 个 函数 是 读 文件 的 核心 函数 。 它 有 4 个 参数 ,fd 是 文件 描述 符 ,base 是 缓存 的 基地 
址 ,len 是 要 读 取 的 长 度 ,copied_store 存放 实际 读 取 的 长 度 。 函 数 首先 调用 fd2file 函数 找 
到 对 应 的 file 结构 ,并 检查 是 否 可 读 。 调 用 filemap_acquire 函数 使 打开 这 个 文件 的 计数 加 
1。 调 用 vop_read 也 数 将 文件 内 容 读 到 iob 中 (详细 分 析 见 后 )。 调 整 文件 指针 偏 移 量 pos 
的 值 ,使 其 向 后 移动 实际 读 到 的 字 节 数 iobuf_used(iob)。 最 后 调用 filemap_release 函数 使 
打开 这 个 文件 的 计数 减 1, 若 打开 计数 为 0, 则 释放 file, 

3) SFS 文件 系统 层 的 处 理 流程 

vop_read 函数 实际 上 是 对 sfs_read 的 包装 。 在 sfs_inode.c 中 sfs_node_fileops 变量 定 
义 了 . vop_read = sfs_read, 所 以 下 面 来 分 析 sfs_read 函数 的 实现 。 

sfs_read 函数 调用 sfs_io 函数 。 它 有 三 个 参数 ,node 是 对 应 文件 的 inode,iob 是 缓存 ， 
write 表示 是 读 还 是 写 的 布尔 值 (0 表示 读 ,1 表示 写 ) ,这 里 是 0。 函数 先 找 到 inode 对 应 sfs 
和 sin, 然 后 调用 sfs_io_nolock 函数 进行 读 取 文件 操作 ,最 后 调用 iobuf_skip 函数 调整 iobuf 
的 指针 。 

在 sfs_io_nolock 函数 中 , 先 计 算 一 些 辅助 变量 ,并 处 理 一 些 特殊 情况 (比如 越界 ) ,然后 
有 sfs_buf_op = sfs_rbuf,sfs_block_op = sfs_rblock, 设 置 读 取 的 函数 操作 。 接 着 进行 实 
际 操 作 , 先 处 理 起 始 的 没有 对 齐 到 块 的 部 分 ,再 以 块 为 单位 循环 处 理 中 间 的 部 分 ,最 后 处 理 
末尾 剩余 的 部 分 。 每 部 分 中 都 调用 sfs_bmap_load_nolock 函数 得 到 blkno 对 应 的 inode 编 
号 ,并 调用 sfs_rbuf 或 sfs_rblock 函数 读 取 数据 (中 间 部 分 调用 sfs_rblock ,起 始 和 末尾 部 分 
调用 sfs_rbuf) ,调整 相关 变量 。 完 成 后 如 果 offset 十 alen > din—>fileinfo. size( 写 文件 时 
会 出 现 这 种 情况 , 读 文件 时 不 会 出 现 这 种 情况 ,alen 为 实际 读 写 的 长 度 ) , 则 调整 文件 大 小 为 
offset 十 alen 并 设置 dirty 变量 。 

sfs_bmap_load_nolock 函数 将 对 应 sfs_inode 的 第 index 个 索引 指向 的 block 的 索引 值 
取出 存 到 相应 的 指针 指向 的 单元 (ino_store) 。 它 调用 sfs_bmap_get_nolock 来 完成 相应 的 
操作 。sfs_rbuf 和 sfs_rblock pK Rie Z% Hb J JH sfs_rwblock_nolock 函数 完成 操作 ,而 sfs_ 
rwblock_nolock 函数 调用 dop_io— > disk0_io— >disk0_read_blks_nolock — >ide_read_ 
secs 完成 对 磁盘 的 操作 。 
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9.4 实验 报告 要 求 


从 网 站 上 下 载 lab8. zip 后 ,解压 得 到 本 文档 和 代码 目录 lab8 ,完成 实验 中 的 各 个 练习 。 
完成 代码 编写 并 检查 无 误 后 ,在 对 应 目录 下 执行 make handin 任务 , 即 会 自动 生成 lab8- 
handin, tar. gz。 最 后 请 一 定 提 前 或 按时 提交 到 网 络 学 堂上 。 

注意 有 lab8 的 注释 ,这 是 需要 主要 修改 的 内 容 。 代 码 中 所 有 需要 完成 的 地 方 
Challenge 除外 ?都 有 lab8 Fil“ Your Code” 的 注释 ,请 在 提交 时 特别 注意 保持 注释 ,并 将 
“Your Code” 替 换 为 自己 的 学 号 ,并 且 将 所 有 标 有 对 应 注释 的 部 分 填 上 正确 的 代码 。 


